Questa tesi esplora tre aspetti fondamentali legati alla gestione e all’analisi dei dati: l’aggregabilità, l’anonimizzazione e l’impatto di quest’ultima sui modelli di machine learning. Nella prima parte viene approfondito il concetto di aggregabilità, inteso come la possibilità di sommare o raggruppare i dati lungo determinate dimensioni senza perdere significato né introdurre distorsioni. Lo studio prende in esame diverse dimensioni di analisi, permettendo di valutare la coerenza semantica e l’affidabilità dei processi di aggregazione. È emerso che alcune combinazioni generano errori significativi di sovrastima, determinando la non aggregabilità delle misure. Questo risultato evidenzia l’importanza di individuare condizioni in cui l’aggregazione potrebbe condurre a interpretazioni distorte dei dati. La seconda parte della tesi è dedicata all’anonimizzazione di un dataset sui consumi energetici, effettuata tramite il tool ARX secondo il criterio del k-anonimato per i quasi-identificatori e l-diversity per le variabili sensibili. L’analisi del rischio ha mostrato una sostanziale riduzione della probabilità di re-identificazione, mentre la perdita informativa è stata valutata mediante metriche di data utility, tra cui entropia non uniforme e discernibilità. Nonostante la drastica riduzione del rischio di re-identificazione, l’utilità dei dati per le successive analisi non è risultata compromessa in maniera significativa. Inoltre, è stata condotta una valutazione dell’impatto dell’anonimizzazione sulle performance di modelli di classificazione supervisionata, tra cui Logistic Regression, Decision Tree e Random Forest, utilizzando accuratezza e F1-measure come metriche di valutazione. I risultati evidenziano come l’anonimizzazione introduca una riduzione delle performance predittive, con variazioni più marcate per alcuni algoritmi rispetto ad altri. Tuttavia, le prestazioni rimangono in diversi casi soddisfacenti, dimostrando che è possibile bilanciare tutela della privacy e mantenimento dell’utilità analitica dei dati. Infine, è stata condotta una valutazione dell’impatto dell’anonimizzazione sull’aggregabilità delle misure discussa nei primi capitoli della tesi. L’applicazione di tecniche di anonimizzazione introduce una perdita di dettaglio informativo che si riflette non solo sulle capacità predittiva degli algoritmi di machine learning ma anche sull’aggregabilità delle misure, riducendo quindi la precisione delle analisi basate sull’aggregazione. In sintesi, l’anonimizzazione consente di rafforzare la tutela della privacy, ma al costo di una minore accuratezza sia nei calcoli aggregati sia nelle previsioni dei modelli. La ricerca mette quindi in evidenza come sia possibile bilanciare protezione della privacy e utilità dei dati, offrendo un contributo sia metodologico sia applicativo alla data science e alla tutela dei dati personali.
Impatto dell’Anonimizzazione dei Dati su Aggregabilità delle Misure e Modelli di Machine Learning
SCARLINO, LAURA
2024/2025
Abstract
Questa tesi esplora tre aspetti fondamentali legati alla gestione e all’analisi dei dati: l’aggregabilità, l’anonimizzazione e l’impatto di quest’ultima sui modelli di machine learning. Nella prima parte viene approfondito il concetto di aggregabilità, inteso come la possibilità di sommare o raggruppare i dati lungo determinate dimensioni senza perdere significato né introdurre distorsioni. Lo studio prende in esame diverse dimensioni di analisi, permettendo di valutare la coerenza semantica e l’affidabilità dei processi di aggregazione. È emerso che alcune combinazioni generano errori significativi di sovrastima, determinando la non aggregabilità delle misure. Questo risultato evidenzia l’importanza di individuare condizioni in cui l’aggregazione potrebbe condurre a interpretazioni distorte dei dati. La seconda parte della tesi è dedicata all’anonimizzazione di un dataset sui consumi energetici, effettuata tramite il tool ARX secondo il criterio del k-anonimato per i quasi-identificatori e l-diversity per le variabili sensibili. L’analisi del rischio ha mostrato una sostanziale riduzione della probabilità di re-identificazione, mentre la perdita informativa è stata valutata mediante metriche di data utility, tra cui entropia non uniforme e discernibilità. Nonostante la drastica riduzione del rischio di re-identificazione, l’utilità dei dati per le successive analisi non è risultata compromessa in maniera significativa. Inoltre, è stata condotta una valutazione dell’impatto dell’anonimizzazione sulle performance di modelli di classificazione supervisionata, tra cui Logistic Regression, Decision Tree e Random Forest, utilizzando accuratezza e F1-measure come metriche di valutazione. I risultati evidenziano come l’anonimizzazione introduca una riduzione delle performance predittive, con variazioni più marcate per alcuni algoritmi rispetto ad altri. Tuttavia, le prestazioni rimangono in diversi casi soddisfacenti, dimostrando che è possibile bilanciare tutela della privacy e mantenimento dell’utilità analitica dei dati. Infine, è stata condotta una valutazione dell’impatto dell’anonimizzazione sull’aggregabilità delle misure discussa nei primi capitoli della tesi. L’applicazione di tecniche di anonimizzazione introduce una perdita di dettaglio informativo che si riflette non solo sulle capacità predittiva degli algoritmi di machine learning ma anche sull’aggregabilità delle misure, riducendo quindi la precisione delle analisi basate sull’aggregazione. In sintesi, l’anonimizzazione consente di rafforzare la tutela della privacy, ma al costo di una minore accuratezza sia nei calcoli aggregati sia nelle previsioni dei modelli. La ricerca mette quindi in evidenza come sia possibile bilanciare protezione della privacy e utilità dei dati, offrendo un contributo sia metodologico sia applicativo alla data science e alla tutela dei dati personali.| File | Dimensione | Formato | |
|---|---|---|---|
|
Scarlino.Laura.pdf
embargo fino al 15/10/2028
Dimensione
1.94 MB
Formato
Adobe PDF
|
1.94 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3702