La presente tesi analizza il contesto applicativo e il business case alla base della piattaforma Persona, una soluzione proprietaria sviluppata da Symboolic Srl per l’orchestrazione di agenti intelligenti in ambito enterprise. Persona si configura come una piattaforma SaaS che consente la creazione di soluzioni personalizzate in grado di cercare, analizzare e agire autonomamente sui dati e sui sistemi aziendali. Gli agenti implementati sono sistemi software autonomi capaci di percepire l’ambiente operativo, prendere decisioni ed eseguire azioni finalizzate al raggiungimento di obiettivi definiti dall’utente o dal contesto. Essi si differenziano dai tradizionali chatbot in quanto non si limitano a rispondere alle richieste, ma intervengono attivamente nei flussi di lavoro, integrandosi con strumenti aziendali come CRM, ERP, database e sistemi di knowledge management, garantendo al contempo sicurezza, tracciabilità e coerenza nel tono e nello stile comunicativo. La piattaforma adotta l’approccio Retrieval-Augmented Generation, che combina il recupero dinamico di informazioni dai database con le capacità di generazione testuale di un large language model. Tale metodologia permette di produrre risposte coerenti, accurate e aggiornate, riducendo il rischio di allucinazioni e migliorando la verificabilità delle fonti. Persona è inoltre caratterizzata da un’elevata configurabilità e dalla possibilità di operare in ambienti cloud o on-premise, offrendo un controllo centralizzato dei modelli, delle politiche di accesso e delle autorizzazioni. La ricerca si concentra su tre processi chiave alla base della generazione di risposte di alta qualità: la riformulazione delle query, l’estrazione di parole chiave tramite Full Text Search e l’identificazione di keyword specifiche di dominio. Tali attività, attualmente gestite da un modello GPT-4o-mini, presentano tuttavia alcune criticità, tra cui alti costi di utilizzo, fenomeni di drift comportamentale dovuti agli aggiornamenti del modello e casi di allucinazione. Per mitigare questi problemi è stata adottata la tecnica del fine-tuning, nella sua variante QLoRA, che consente l’adattamento di modelli pre-addestrati riducendo al contempo l’uso di memoria e le risorse computazionali. Gli obiettivi principali del progetto sono: (1) valutare l’efficacia del fine-tuning nell’adattare gli LLM a contesti specifici e multi-task; (2) confrontare le prestazioni tra modelli generalisti e specializzati, analizzando il contributo del contesto conversazionale e delle strategie di addestramento. L’esperimento è stato strutturato in due fasi. Nella prima è stato impiegato il modello Qwen3-8B per sviluppare un singolo modello in grado di gestire simultaneamente tre task distinti, integrando la storia conversazionale associata a ciascun thread. Nella seconda è stato utilizzato il modello Flan-T5-xxl, adottando un approccio single-task privo di contesto conversazionale, al fine di misurarne l’effettivo impatto sulla qualità delle risposte e rispettare i limiti della finestra contestuale del modello. La fase basata su Qwen3-8B è stata suddivisa in tre sottosezioni: preprocessing dei dati, addestramento tramite QLoRA e test comparativi con GPT-4o-mini, utilizzato come baseline. La seconda fase, invece, ha introdotto un ulteriore esperimento: la fusione degli encoder di due modelli sottoposti a fine-tuning sui task di ricerca keyword e Full Text Search, mediante la tecnica di merging medio, con l’obiettivo di verificare se la combinazione dei pesi potesse migliorare le prestazioni complessive rispetto ai modelli isolati. I risultati ottenuti mirano a contribuire al dibattito sull’adattamento degli LLM in contesti enterprise, offrendo un confronto empirico tra approcci multi-task e specializzati e proponendo soluzioni pratiche per l’ottimizzazione degli agenti autonomi.
The present thesis analyzes the application context and business case underlying the Persona platform, a proprietary solution developed by Symboolic Srl for the orchestration of intelligent agents in the enterprise domain. Persona is configured as a SaaS platform that enables the creation of customized solutions capable of autonomously searching, analyzing, and acting on corporate data and systems. The implemented agents are autonomous software systems able to perceive the operational environment, make decisions, and take actions aimed at achieving goals defined by the user or the context. They differ from traditional chatbots in that they do not merely respond to requests but actively intervene in workflows, integrating with corporate tools such as CRM, ERP, databases, and knowledge management systems, while ensuring security, traceability, and consistency in tone and communication style. The platform adopts the Retrieval-Augmented Generation approach, which combines the dynamic retrieval of information from databases with the textual generation capabilities of a large language model. This methodology allows the production of coherent, accurate, and up-to-date responses, reducing the risk of hallucinations and improving the verifiability of sources. Persona is also characterized by high configurability and the ability to operate in cloud or on-premise environments, offering centralized control of models, access policies, and authorizations. The research focuses on three key processes underlying the generation of high-quality responses: query reformulation, keyword extraction through Full Text Search, and the identification of domain-specific keywords. These activities, currently managed by a GPT-4o-mini model, however, present certain challenges, including high usage costs, behavioral drift due to model updates, and hallucination phenomena. To mitigate these issues, the fine-tuning technique was adopted, specifically its QLoRA variant, which allows the adaptation of pre-trained models while reducing memory usage and computational resources. The main objectives of the project are: (1) to evaluate the effectiveness of fine-tuning in adapting LLMs to specific and multi-task contexts; (2) to compare the performance between generalist and specialized models, analyzing the contribution of conversational context and training strategies. The experiment was structured in two phases. In the first, the Qwen3-8B model was used to develop a single model capable of simultaneously managing three distinct tasks, integrating the conversational history associated with each thread. In the second, the Flan-T5-xxl model was employed, focusing on a single-task approach without conversational context, in order to measure its actual impact on response quality and to comply with the model’s contextual window limitations. The Qwen3-8B-based phase was divided into three subphases: data preprocessing, training through QLoRA, and comparative testing with GPT-4o-mini, used as a baseline. The second phase, instead, introduced an additional experiment: the fusion of the encoders of two fine-tuned models on the keyword search and Full Text Search tasks, using the average merging technique, aimed at verifying whether the combination of weights could improve overall performance compared to isolated models. The results obtained aim to contribute to the debate on the adaptation of LLMs in enterprise contexts, offering an empirical comparison between multi-task and specialized approaches and proposing practical solutions for optimizing autonomous agents.
Experimental Evaluation of Fine-Tuned Models for Query Processing in the Persona Platform Valutazione sperimentale di modelli fine-tuned per l’elaborazione delle query nella piattaforma Persona
SPEZZANI, ALESSANDRO
2024/2025
Abstract
La presente tesi analizza il contesto applicativo e il business case alla base della piattaforma Persona, una soluzione proprietaria sviluppata da Symboolic Srl per l’orchestrazione di agenti intelligenti in ambito enterprise. Persona si configura come una piattaforma SaaS che consente la creazione di soluzioni personalizzate in grado di cercare, analizzare e agire autonomamente sui dati e sui sistemi aziendali. Gli agenti implementati sono sistemi software autonomi capaci di percepire l’ambiente operativo, prendere decisioni ed eseguire azioni finalizzate al raggiungimento di obiettivi definiti dall’utente o dal contesto. Essi si differenziano dai tradizionali chatbot in quanto non si limitano a rispondere alle richieste, ma intervengono attivamente nei flussi di lavoro, integrandosi con strumenti aziendali come CRM, ERP, database e sistemi di knowledge management, garantendo al contempo sicurezza, tracciabilità e coerenza nel tono e nello stile comunicativo. La piattaforma adotta l’approccio Retrieval-Augmented Generation, che combina il recupero dinamico di informazioni dai database con le capacità di generazione testuale di un large language model. Tale metodologia permette di produrre risposte coerenti, accurate e aggiornate, riducendo il rischio di allucinazioni e migliorando la verificabilità delle fonti. Persona è inoltre caratterizzata da un’elevata configurabilità e dalla possibilità di operare in ambienti cloud o on-premise, offrendo un controllo centralizzato dei modelli, delle politiche di accesso e delle autorizzazioni. La ricerca si concentra su tre processi chiave alla base della generazione di risposte di alta qualità: la riformulazione delle query, l’estrazione di parole chiave tramite Full Text Search e l’identificazione di keyword specifiche di dominio. Tali attività, attualmente gestite da un modello GPT-4o-mini, presentano tuttavia alcune criticità, tra cui alti costi di utilizzo, fenomeni di drift comportamentale dovuti agli aggiornamenti del modello e casi di allucinazione. Per mitigare questi problemi è stata adottata la tecnica del fine-tuning, nella sua variante QLoRA, che consente l’adattamento di modelli pre-addestrati riducendo al contempo l’uso di memoria e le risorse computazionali. Gli obiettivi principali del progetto sono: (1) valutare l’efficacia del fine-tuning nell’adattare gli LLM a contesti specifici e multi-task; (2) confrontare le prestazioni tra modelli generalisti e specializzati, analizzando il contributo del contesto conversazionale e delle strategie di addestramento. L’esperimento è stato strutturato in due fasi. Nella prima è stato impiegato il modello Qwen3-8B per sviluppare un singolo modello in grado di gestire simultaneamente tre task distinti, integrando la storia conversazionale associata a ciascun thread. Nella seconda è stato utilizzato il modello Flan-T5-xxl, adottando un approccio single-task privo di contesto conversazionale, al fine di misurarne l’effettivo impatto sulla qualità delle risposte e rispettare i limiti della finestra contestuale del modello. La fase basata su Qwen3-8B è stata suddivisa in tre sottosezioni: preprocessing dei dati, addestramento tramite QLoRA e test comparativi con GPT-4o-mini, utilizzato come baseline. La seconda fase, invece, ha introdotto un ulteriore esperimento: la fusione degli encoder di due modelli sottoposti a fine-tuning sui task di ricerca keyword e Full Text Search, mediante la tecnica di merging medio, con l’obiettivo di verificare se la combinazione dei pesi potesse migliorare le prestazioni complessive rispetto ai modelli isolati. I risultati ottenuti mirano a contribuire al dibattito sull’adattamento degli LLM in contesti enterprise, offrendo un confronto empirico tra approcci multi-task e specializzati e proponendo soluzioni pratiche per l’ottimizzazione degli agenti autonomi.| File | Dimensione | Formato | |
|---|---|---|---|
|
Spezzani.Alessandro.pdf
accesso aperto
Dimensione
6.42 MB
Formato
Adobe PDF
|
6.42 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/4123