Nel contesto della selezione del personale, l’abbinamento automatico tra offerte di lavoro (job postings, JP) e Curriculum Vitae (CV) rappresenta un compito cruciale per ridurre il carico di lavoro nella fase di preselezione e aumentare l’efficienza dei sistemi di recruiting. Il problema di associare un CV a una determinata offerta di lavoro può essere inquadrato come un task di Generalized Entity Matching (GEM), in cui le entità da confrontare — nel nostro caso JP e CV — presentano strutture, livelli di granularità e linguaggi differenti. Negli ultimi anni, lo stato dell’arte in GEM ha visto emergere soluzioni basate su modelli neurali pre-addestrati. Ad esempio, Machop integra pooling structure-aware e conoscenza esterna, ottenendo buone prestazioni su entità eterogenee ma richiedendo dataset ampi e annotati. Nel dominio HR si collocano invece ConFit v2, che introduce data augmentation generativa e strategie di hard-negative mining per migliorare l’allenamento, e conSultantBERT, basato su un’architettura siamese capace di mo- dellare compatibilità semantiche complesse. Questi modelli hanno mostrato performance elevate su dataset di resume–job matching, ma la loro effica- cia si riduce sensibilmente in scenari low-resource, caratterizzati da forte squilibrio di classe e marcata eterogeneità strutturale e terminologica. Lo scenario affrontato in questa tesi ricade proprio in un contesto low- resource: il dataset disponibile è ridotto e sbilanciato, con marcata etero- geneità strutturale e terminologica. Queste condizioni limitano l’efficacia sia dei modelli EM tradizionali sia delle tecniche più avanzate, rendendo necessarie strategie alternative. Per superare tali limitazioni, è stata progettata e validata una pipeli- ne di Data Augmentation (DA) generativa, ispirata al framework START (Self-Taught AttRibuTion) e adattata al dominio del recruiting. L’o- biettivo è generare coppie costituite da JP reali e CV sintetici, plausibili e semanticamente coerenti, al fine di riequilibrare la distribuzione delle classi e aumentare la varietà semantica del dataset. La pipeline utilizza due LLM: GPT-4o mini, un modello multimodale compatto ed efficiente, e Qwen3, una famiglia di modelli open-source con modalità di ragionamento adattivo, impiegati in fasi distinte della generazione e trasformazione dei dati. Per ogni job posting reale viene prodotto un CV perfect match e una serie di varianti ottenute modificando in modo controllato singoli attributi. Le mo- difiche a caratteristiche critiche generano CV meno pertinenti, mentre quelle a elementi marginali hanno impatto ridotto. Questo processo consente di costruire una classifica gold standard che ordina i CV dal più pertinente al meno pertinente per ciascun JP, utile per valutare la capacità dei modelli di distinguere tra profili idonei e non idonei. I risultati sperimentali mostrano un’elevata coerenza tra le classifiche basate sulla cosine similarity degli embedding testuali e la classifica gold standard, confermando la validità e la consistenza semantica dei dati sintetici prodotti e il loro potenziale come risorsa per l’addestramento e la valutazione di modelli GEM in scenari low-resource.
Adattamento e implementazione di tecniche di data augmentation basate su large language models in ambito recruiting
BIONDI RUSSO, CYNTIA VALERIA
2024/2025
Abstract
Nel contesto della selezione del personale, l’abbinamento automatico tra offerte di lavoro (job postings, JP) e Curriculum Vitae (CV) rappresenta un compito cruciale per ridurre il carico di lavoro nella fase di preselezione e aumentare l’efficienza dei sistemi di recruiting. Il problema di associare un CV a una determinata offerta di lavoro può essere inquadrato come un task di Generalized Entity Matching (GEM), in cui le entità da confrontare — nel nostro caso JP e CV — presentano strutture, livelli di granularità e linguaggi differenti. Negli ultimi anni, lo stato dell’arte in GEM ha visto emergere soluzioni basate su modelli neurali pre-addestrati. Ad esempio, Machop integra pooling structure-aware e conoscenza esterna, ottenendo buone prestazioni su entità eterogenee ma richiedendo dataset ampi e annotati. Nel dominio HR si collocano invece ConFit v2, che introduce data augmentation generativa e strategie di hard-negative mining per migliorare l’allenamento, e conSultantBERT, basato su un’architettura siamese capace di mo- dellare compatibilità semantiche complesse. Questi modelli hanno mostrato performance elevate su dataset di resume–job matching, ma la loro effica- cia si riduce sensibilmente in scenari low-resource, caratterizzati da forte squilibrio di classe e marcata eterogeneità strutturale e terminologica. Lo scenario affrontato in questa tesi ricade proprio in un contesto low- resource: il dataset disponibile è ridotto e sbilanciato, con marcata etero- geneità strutturale e terminologica. Queste condizioni limitano l’efficacia sia dei modelli EM tradizionali sia delle tecniche più avanzate, rendendo necessarie strategie alternative. Per superare tali limitazioni, è stata progettata e validata una pipeli- ne di Data Augmentation (DA) generativa, ispirata al framework START (Self-Taught AttRibuTion) e adattata al dominio del recruiting. L’o- biettivo è generare coppie costituite da JP reali e CV sintetici, plausibili e semanticamente coerenti, al fine di riequilibrare la distribuzione delle classi e aumentare la varietà semantica del dataset. La pipeline utilizza due LLM: GPT-4o mini, un modello multimodale compatto ed efficiente, e Qwen3, una famiglia di modelli open-source con modalità di ragionamento adattivo, impiegati in fasi distinte della generazione e trasformazione dei dati. Per ogni job posting reale viene prodotto un CV perfect match e una serie di varianti ottenute modificando in modo controllato singoli attributi. Le mo- difiche a caratteristiche critiche generano CV meno pertinenti, mentre quelle a elementi marginali hanno impatto ridotto. Questo processo consente di costruire una classifica gold standard che ordina i CV dal più pertinente al meno pertinente per ciascun JP, utile per valutare la capacità dei modelli di distinguere tra profili idonei e non idonei. I risultati sperimentali mostrano un’elevata coerenza tra le classifiche basate sulla cosine similarity degli embedding testuali e la classifica gold standard, confermando la validità e la consistenza semantica dei dati sintetici prodotti e il loro potenziale come risorsa per l’addestramento e la valutazione di modelli GEM in scenari low-resource.| File | Dimensione | Formato | |
|---|---|---|---|
|
BiondiRusso.CyntiaValeria.pdf
accesso aperto
Dimensione
934.96 kB
Formato
Adobe PDF
|
934.96 kB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3714