Adattamento e implementazione di tecniche di data augmentation basate su large language models in ambito recruiting

Nel contesto della selezione del personale, l’abbinamento automatico tra offerte di lavoro (job postings, JP) e Curriculum Vitae (CV) rappresenta un compito cruciale per ridurre il carico di lavoro nella fase di preselezione e aumentare l’efficienza dei sistemi di recruiting. Il problema di associare un CV a una determinata offerta di lavoro può essere inquadrato come un task di Generalized Entity Matching (GEM), in cui le entità da confrontare — nel nostro caso JP e CV — presentano strutture, livelli di granularità e linguaggi differenti. Negli ultimi anni, lo stato dell’arte in GEM ha visto emergere soluzioni basate su modelli neurali pre-addestrati. Ad esempio, Machop integra pooling structure-aware e conoscenza esterna, ottenendo buone prestazioni su entità eterogenee ma richiedendo dataset ampi e annotati. Nel dominio HR si collocano invece ConFit v2, che introduce data augmentation generativa e strategie di hard-negative mining per migliorare l’allenamento, e conSultantBERT, basato su un’architettura siamese capace di mo- dellare compatibilità semantiche complesse. Questi modelli hanno mostrato performance elevate su dataset di resume–job matching, ma la loro effica- cia si riduce sensibilmente in scenari low-resource, caratterizzati da forte squilibrio di classe e marcata eterogeneità strutturale e terminologica. Lo scenario affrontato in questa tesi ricade proprio in un contesto low- resource: il dataset disponibile è ridotto e sbilanciato, con marcata etero- geneità strutturale e terminologica. Queste condizioni limitano l’efficacia sia dei modelli EM tradizionali sia delle tecniche più avanzate, rendendo necessarie strategie alternative. Per superare tali limitazioni, è stata progettata e validata una pipeli- ne di Data Augmentation (DA) generativa, ispirata al framework START (Self-Taught AttRibuTion) e adattata al dominio del recruiting. L’o- biettivo è generare coppie costituite da JP reali e CV sintetici, plausibili e semanticamente coerenti, al fine di riequilibrare la distribuzione delle classi e aumentare la varietà semantica del dataset. La pipeline utilizza due LLM: GPT-4o mini, un modello multimodale compatto ed efficiente, e Qwen3, una famiglia di modelli open-source con modalità di ragionamento adattivo, impiegati in fasi distinte della generazione e trasformazione dei dati. Per ogni job posting reale viene prodotto un CV perfect match e una serie di varianti ottenute modificando in modo controllato singoli attributi. Le mo- difiche a caratteristiche critiche generano CV meno pertinenti, mentre quelle a elementi marginali hanno impatto ridotto. Questo processo consente di costruire una classifica gold standard che ordina i CV dal più pertinente al meno pertinente per ciascun JP, utile per valutare la capacità dei modelli di distinguere tra profili idonei e non idonei. I risultati sperimentali mostrano un’elevata coerenza tra le classifiche basate sulla cosine similarity degli embedding testuali e la classifica gold standard, confermando la validità e la consistenza semantica dei dati sintetici prodotti e il loro potenziale come risorsa per l’addestramento e la valutazione di modelli GEM in scenari low-resource.

Adattamento e implementazione di tecniche di data augmentation basate su large language models in ambito recruiting

BIONDI RUSSO, CYNTIA VALERIA

2024/2025

Abstract

Nel contesto della selezione del personale, l’abbinamento automatico tra offerte di lavoro (job postings, JP) e Curriculum Vitae (CV) rappresenta un compito cruciale per ridurre il carico di lavoro nella fase di preselezione e aumentare l’efficienza dei sistemi di recruiting. Il problema di associare un CV a una determinata offerta di lavoro può essere inquadrato come un task di Generalized Entity Matching (GEM), in cui le entità da confrontare — nel nostro caso JP e CV — presentano strutture, livelli di granularità e linguaggi differenti. Negli ultimi anni, lo stato dell’arte in GEM ha visto emergere soluzioni basate su modelli neurali pre-addestrati. Ad esempio, Machop integra pooling structure-aware e conoscenza esterna, ottenendo buone prestazioni su entità eterogenee ma richiedendo dataset ampi e annotati. Nel dominio HR si collocano invece ConFit v2, che introduce data augmentation generativa e strategie di hard-negative mining per migliorare l’allenamento, e conSultantBERT, basato su un’architettura siamese capace di mo- dellare compatibilità semantiche complesse. Questi modelli hanno mostrato performance elevate su dataset di resume–job matching, ma la loro effica- cia si riduce sensibilmente in scenari low-resource, caratterizzati da forte squilibrio di classe e marcata eterogeneità strutturale e terminologica. Lo scenario affrontato in questa tesi ricade proprio in un contesto low- resource: il dataset disponibile è ridotto e sbilanciato, con marcata etero- geneità strutturale e terminologica. Queste condizioni limitano l’efficacia sia dei modelli EM tradizionali sia delle tecniche più avanzate, rendendo necessarie strategie alternative. Per superare tali limitazioni, è stata progettata e validata una pipeli- ne di Data Augmentation (DA) generativa, ispirata al framework START (Self-Taught AttRibuTion) e adattata al dominio del recruiting. L’o- biettivo è generare coppie costituite da JP reali e CV sintetici, plausibili e semanticamente coerenti, al fine di riequilibrare la distribuzione delle classi e aumentare la varietà semantica del dataset. La pipeline utilizza due LLM: GPT-4o mini, un modello multimodale compatto ed efficiente, e Qwen3, una famiglia di modelli open-source con modalità di ragionamento adattivo, impiegati in fasi distinte della generazione e trasformazione dei dati. Per ogni job posting reale viene prodotto un CV perfect match e una serie di varianti ottenute modificando in modo controllato singoli attributi. Le mo- difiche a caratteristiche critiche generano CV meno pertinenti, mentre quelle a elementi marginali hanno impatto ridotto. Questo processo consente di costruire una classifica gold standard che ordina i CV dal più pertinente al meno pertinente per ciascun JP, utile per valutare la capacità dei modelli di distinguere tra profili idonei e non idonei. I risultati sperimentali mostrano un’elevata coerenza tra le classifiche basate sulla cosine similarity degli embedding testuali e la classifica gold standard, confermando la validità e la consistenza semantica dei dati sintetici prodotti e il loro potenziale come risorsa per l’addestramento e la valutazione di modelli GEM in scenari low-resource.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				Generalized em
automation recruitin
data augmentation
llm
resume-job matching
			
	Relatore
	
				GUERRA, FRANCESCO
			
	Controrelatore
	
				GUIDUZZI, GIACOMO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
BiondiRusso.CyntiaValeria.pdf accesso aperto Dimensione 934.96 kB Formato Adobe PDF Visualizza/Apri	934.96 kB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3714