Negli ultimi anni l’emergere di modelli di linguaggio di grandi dimensioni (Large Language Models, LLM) ha aperto nuove prospettive nello sviluppo di sistemi intelligenti per l’elaborazione e la comprensione di testi complessi. Una delle principali sfide consiste tuttavia nella loro capacità limitata di accedere a conoscenze aggiornate, specifiche e strutturate, aspetto particolarmente rilevante quando si trattano domini caratterizzati da basi documentali ricche e in costante evoluzione. In tale contesto si colloca il paradigma del Retrieval-Augmented Generation (RAG), che combina la potenza generativa degli LLM con meccanismi di recupero dell’informazione mirati, consentendo di integrare nel processo di generazione contenuti provenienti da basi dati esterne. Questa ricerca si propone di valutare l’applicazione di tecniche RAG alle MISSOC Comparative Tables (Mutual Information System on Social Protection), uno strumento ufficiale della Commissione Europea che raccoglie, in forma comparativa e strutturata, informazioni sui sistemi di protezione sociale dei paesi membri dell’Unione Europea e di altri paesi europei. Le tabelle MISSOC, pur essendo una risorsa di elevato valore informativo, presentano sfide significative per l’elaborazione automatica: sono costruite per la consultazione umana, non per analisi computazionali; presentano eterogeneità di formati, descrizioni testuali complesse e aggiornamenti frequenti; inoltre, le interrogazioni richiedono al tempo stesso precisione terminologica e capacità di astrazione. L’obiettivo del lavoro è analizzare le prestazioni di diverse configurazioni di pipeline RAG, valutando l’efficacia dei metodi di indicizzazione, segmentazione e retrieval dei documenti e il loro impatto sulla qualità delle risposte generate. La sperimentazione mira a misurare non solo la correttezza e la pertinenza dei risultati, ma anche la loro capacità di supportare analisi comparative affidabili.

Tecniche di Retrieval-Augmented Generation applicate alle MISSOC comparative Tables

RINALDI, MICHELE
2024/2025

Abstract

Negli ultimi anni l’emergere di modelli di linguaggio di grandi dimensioni (Large Language Models, LLM) ha aperto nuove prospettive nello sviluppo di sistemi intelligenti per l’elaborazione e la comprensione di testi complessi. Una delle principali sfide consiste tuttavia nella loro capacità limitata di accedere a conoscenze aggiornate, specifiche e strutturate, aspetto particolarmente rilevante quando si trattano domini caratterizzati da basi documentali ricche e in costante evoluzione. In tale contesto si colloca il paradigma del Retrieval-Augmented Generation (RAG), che combina la potenza generativa degli LLM con meccanismi di recupero dell’informazione mirati, consentendo di integrare nel processo di generazione contenuti provenienti da basi dati esterne. Questa ricerca si propone di valutare l’applicazione di tecniche RAG alle MISSOC Comparative Tables (Mutual Information System on Social Protection), uno strumento ufficiale della Commissione Europea che raccoglie, in forma comparativa e strutturata, informazioni sui sistemi di protezione sociale dei paesi membri dell’Unione Europea e di altri paesi europei. Le tabelle MISSOC, pur essendo una risorsa di elevato valore informativo, presentano sfide significative per l’elaborazione automatica: sono costruite per la consultazione umana, non per analisi computazionali; presentano eterogeneità di formati, descrizioni testuali complesse e aggiornamenti frequenti; inoltre, le interrogazioni richiedono al tempo stesso precisione terminologica e capacità di astrazione. L’obiettivo del lavoro è analizzare le prestazioni di diverse configurazioni di pipeline RAG, valutando l’efficacia dei metodi di indicizzazione, segmentazione e retrieval dei documenti e il loro impatto sulla qualità delle risposte generate. La sperimentazione mira a misurare non solo la correttezza e la pertinenza dei risultati, ma anche la loro capacità di supportare analisi comparative affidabili.
2024
Retrieval-Augmented Generation Techniques Applied to MISSOC comparative Tables
RAG
Generative AI
LLM
MISSOC tables
IR
File in questo prodotto:
File Dimensione Formato  
Rinaldi.Michele.pdf

Accesso riservato

Dimensione 1.64 MB
Formato Adobe PDF
1.64 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3928