Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.

Conservazione della Data Utility in Presenza di Anonimizzazione: Un’Analisi tramite Schema Matching

LA CORTE, CARMELO
2024/2025

Abstract

Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.
2024
Data Anonymization
Schema Matching
Data Utility
k-Anonymity
Data Corruption
File in questo prodotto:
File Dimensione Formato  
LaCorte.Carmelo.pdf

Accesso riservato

Dimensione 465.82 kB
Formato Adobe PDF
465.82 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3516