Negli ultimi anni l’emergere di modelli di linguaggio di grandi dimensioni (Large Language Models, LLM) ha aperto nuove prospettive nello sviluppo di sistemi intelligenti per l’elaborazione e la comprensione di testi complessi. Una delle principali sfide consiste tuttavia nella loro capacità limitata di accedere a conoscenze aggiornate, specifiche e strutturate, aspetto particolarmente rilevante quando si trattano domini caratterizzati da basi documentali ricche e in costante evoluzione. In tale contesto si colloca il paradigma del Retrieval-Augmented Generation (RAG), che combina la potenza generativa degli LLM con meccanismi di recupero dell’informazione mirati, consentendo di integrare nel processo di generazione contenuti provenienti da basi dati esterne. Questa ricerca si propone di valutare l’applicazione di tecniche RAG alle MISSOC Comparative Tables (Mutual Information System on Social Protection), uno strumento ufficiale della Commissione Europea che raccoglie, in forma comparativa e strutturata, informazioni sui sistemi di protezione sociale dei paesi membri dell’Unione Europea e di altri paesi europei. Le tabelle MISSOC, pur essendo una risorsa di elevato valore informativo, presentano sfide significative per l’elaborazione automatica: sono costruite per la consultazione umana, non per analisi computazionali; presentano eterogeneità di formati, descrizioni testuali complesse e aggiornamenti frequenti; inoltre, le interrogazioni richiedono al tempo stesso precisione terminologica e capacità di astrazione. L’obiettivo del lavoro è analizzare le prestazioni di diverse configurazioni di pipeline RAG, valutando l’efficacia dei metodi di indicizzazione, segmentazione e retrieval dei documenti e il loro impatto sulla qualità delle risposte generate. La sperimentazione mira a misurare non solo la correttezza e la pertinenza dei risultati, ma anche la loro capacità di supportare analisi comparative affidabili.
Tecniche di Retrieval-Augmented Generation applicate alle MISSOC comparative Tables
RINALDI, MICHELE
2024/2025
Abstract
Negli ultimi anni l’emergere di modelli di linguaggio di grandi dimensioni (Large Language Models, LLM) ha aperto nuove prospettive nello sviluppo di sistemi intelligenti per l’elaborazione e la comprensione di testi complessi. Una delle principali sfide consiste tuttavia nella loro capacità limitata di accedere a conoscenze aggiornate, specifiche e strutturate, aspetto particolarmente rilevante quando si trattano domini caratterizzati da basi documentali ricche e in costante evoluzione. In tale contesto si colloca il paradigma del Retrieval-Augmented Generation (RAG), che combina la potenza generativa degli LLM con meccanismi di recupero dell’informazione mirati, consentendo di integrare nel processo di generazione contenuti provenienti da basi dati esterne. Questa ricerca si propone di valutare l’applicazione di tecniche RAG alle MISSOC Comparative Tables (Mutual Information System on Social Protection), uno strumento ufficiale della Commissione Europea che raccoglie, in forma comparativa e strutturata, informazioni sui sistemi di protezione sociale dei paesi membri dell’Unione Europea e di altri paesi europei. Le tabelle MISSOC, pur essendo una risorsa di elevato valore informativo, presentano sfide significative per l’elaborazione automatica: sono costruite per la consultazione umana, non per analisi computazionali; presentano eterogeneità di formati, descrizioni testuali complesse e aggiornamenti frequenti; inoltre, le interrogazioni richiedono al tempo stesso precisione terminologica e capacità di astrazione. L’obiettivo del lavoro è analizzare le prestazioni di diverse configurazioni di pipeline RAG, valutando l’efficacia dei metodi di indicizzazione, segmentazione e retrieval dei documenti e il loro impatto sulla qualità delle risposte generate. La sperimentazione mira a misurare non solo la correttezza e la pertinenza dei risultati, ma anche la loro capacità di supportare analisi comparative affidabili.| File | Dimensione | Formato | |
|---|---|---|---|
|
Rinaldi.Michele.pdf
Accesso riservato
Dimensione
1.64 MB
Formato
Adobe PDF
|
1.64 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3928