Design and Implementation of a Domain-Specific Retrieval-Augmented Generation System: A Case Study on Gender Gap Analysis

Negli ultimi anni, l'intelligenza artificiale ha rivoluzionato il modo in cui gli esseri umani interagiscono con i sistemi informatici. In particolare, l'uso di Large Language Models (LLM), come GPT-4, Llama e Mistral, ha reso possibile lo sviluppo di chatbot altamente sofisticati, in grado di comprendere e generare testo in modo naturale. Tuttavia, l'affidabilità e l'accuratezza delle risposte di questi modelli possono essere limitate dalla loro conoscenza statica, che si basa esclusivamente sui dati di addestramento. Per affrontare questa problematica, la tesi esplora l'integrazione della tecnica di Retrieval-Augmented Generation (RAG), che combina la generazione di testo con il recupero dinamico di informazioni da fonti esterne, come database testuali, documenti e siti web. Questo approccio consente al chatbot di accedere a conoscenze aggiornate e contestualizzate, migliorando la pertinenza e la precisione delle risposte. Il lavoro si focalizza sull'implementazione di un sistema RAG-based, utilizzando LangChain come framework per orchestrare il flusso dei dati, Hugging Face Transformers per l'inferenza dei modelli LLM, e PgVector come database vettoriale per l'indicizzazione e il recupero dei documenti. Verrà inoltre approfondito il processo di creazione di un dataset personalizzato, estratto da documenti in formato PDF. Inoltre, la tesi include una fase di valutazione sperimentale, in cui il chatbot verrà testato con il dataset ottenuto di domande reali per misurare metriche di accuratezza, pertinenza e precisione del sistema andando a proporre una nuova tecnica di chunking e retrieval basate sulla clusterizzazione delle informazioni.

Design and Implementation of a Domain-Specific Retrieval-Augmented Generation System: A Case Study on Gender Gap Analysis

SANTACROCE, MARTA

2024/2025

Abstract

Negli ultimi anni, l'intelligenza artificiale ha rivoluzionato il modo in cui gli esseri umani interagiscono con i sistemi informatici. In particolare, l'uso di Large Language Models (LLM), come GPT-4, Llama e Mistral, ha reso possibile lo sviluppo di chatbot altamente sofisticati, in grado di comprendere e generare testo in modo naturale. Tuttavia, l'affidabilità e l'accuratezza delle risposte di questi modelli possono essere limitate dalla loro conoscenza statica, che si basa esclusivamente sui dati di addestramento. Per affrontare questa problematica, la tesi esplora l'integrazione della tecnica di Retrieval-Augmented Generation (RAG), che combina la generazione di testo con il recupero dinamico di informazioni da fonti esterne, come database testuali, documenti e siti web. Questo approccio consente al chatbot di accedere a conoscenze aggiornate e contestualizzate, migliorando la pertinenza e la precisione delle risposte. Il lavoro si focalizza sull'implementazione di un sistema RAG-based, utilizzando LangChain come framework per orchestrare il flusso dei dati, Hugging Face Transformers per l'inferenza dei modelli LLM, e PgVector come database vettoriale per l'indicizzazione e il recupero dei documenti. Verrà inoltre approfondito il processo di creazione di un dataset personalizzato, estratto da documenti in formato PDF. Inoltre, la tesi include una fase di valutazione sperimentale, in cui il chatbot verrà testato con il dataset ottenuto di domande reali per misurare metriche di accuratezza, pertinenza e precisione del sistema andando a proporre una nuova tecnica di chunking e retrieval basate sulla clusterizzazione delle informazioni.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				RAG
LLM
LangChain
ChatBot
RAG-evaluation
			
	Relatore
	
				GUERRA, FRANCESCO
			
	Controrelatore
	
				CONTALBO, MICHELE LUCA
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Santacroce.Marta.pdf embargo fino al 15/07/2028 Dimensione 2.98 MB Formato Adobe PDF	2.98 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3204