Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.
Conservazione della Data Utility in Presenza di Anonimizzazione: Un’Analisi tramite Schema Matching
LA CORTE, CARMELO
2024/2025
Abstract
Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.| File | Dimensione | Formato | |
|---|---|---|---|
|
LaCorte.Carmelo.pdf
Accesso riservato
Dimensione
465.82 kB
Formato
Adobe PDF
|
465.82 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3516