Impatto dell’Anonimizzazione dei Dati su Aggregabilità delle Misure e Modelli di Machine Learning

Questa tesi esplora tre aspetti fondamentali legati alla gestione e all’analisi dei dati: l’aggregabilità, l’anonimizzazione e l’impatto di quest’ultima sui modelli di machine learning. Nella prima parte viene approfondito il concetto di aggregabilità, inteso come la possibilità di sommare o raggruppare i dati lungo determinate dimensioni senza perdere significato né introdurre distorsioni. Lo studio prende in esame diverse dimensioni di analisi, permettendo di valutare la coerenza semantica e l’affidabilità dei processi di aggregazione. È emerso che alcune combinazioni generano errori significativi di sovrastima, determinando la non aggregabilità delle misure. Questo risultato evidenzia l’importanza di individuare condizioni in cui l’aggregazione potrebbe condurre a interpretazioni distorte dei dati. La seconda parte della tesi è dedicata all’anonimizzazione di un dataset sui consumi energetici, effettuata tramite il tool ARX secondo il criterio del k-anonimato per i quasi-identificatori e l-diversity per le variabili sensibili. L’analisi del rischio ha mostrato una sostanziale riduzione della probabilità di re-identificazione, mentre la perdita informativa è stata valutata mediante metriche di data utility, tra cui entropia non uniforme e discernibilità. Nonostante la drastica riduzione del rischio di re-identificazione, l’utilità dei dati per le successive analisi non è risultata compromessa in maniera significativa. Inoltre, è stata condotta una valutazione dell’impatto dell’anonimizzazione sulle performance di modelli di classificazione supervisionata, tra cui Logistic Regression, Decision Tree e Random Forest, utilizzando accuratezza e F1-measure come metriche di valutazione. I risultati evidenziano come l’anonimizzazione introduca una riduzione delle performance predittive, con variazioni più marcate per alcuni algoritmi rispetto ad altri. Tuttavia, le prestazioni rimangono in diversi casi soddisfacenti, dimostrando che è possibile bilanciare tutela della privacy e mantenimento dell’utilità analitica dei dati. Infine, è stata condotta una valutazione dell’impatto dell’anonimizzazione sull’aggregabilità delle misure discussa nei primi capitoli della tesi. L’applicazione di tecniche di anonimizzazione introduce una perdita di dettaglio informativo che si riflette non solo sulle capacità predittiva degli algoritmi di machine learning ma anche sull’aggregabilità delle misure, riducendo quindi la precisione delle analisi basate sull’aggregazione. In sintesi, l’anonimizzazione consente di rafforzare la tutela della privacy, ma al costo di una minore accuratezza sia nei calcoli aggregati sia nelle previsioni dei modelli. La ricerca mette quindi in evidenza come sia possibile bilanciare protezione della privacy e utilità dei dati, offrendo un contributo sia metodologico sia applicativo alla data science e alla tutela dei dati personali.

Impatto dell’Anonimizzazione dei Dati su Aggregabilità delle Misure e Modelli di Machine Learning

SCARLINO, LAURA

2024/2025

Abstract

Questa tesi esplora tre aspetti fondamentali legati alla gestione e all’analisi dei dati: l’aggregabilità, l’anonimizzazione e l’impatto di quest’ultima sui modelli di machine learning. Nella prima parte viene approfondito il concetto di aggregabilità, inteso come la possibilità di sommare o raggruppare i dati lungo determinate dimensioni senza perdere significato né introdurre distorsioni. Lo studio prende in esame diverse dimensioni di analisi, permettendo di valutare la coerenza semantica e l’affidabilità dei processi di aggregazione. È emerso che alcune combinazioni generano errori significativi di sovrastima, determinando la non aggregabilità delle misure. Questo risultato evidenzia l’importanza di individuare condizioni in cui l’aggregazione potrebbe condurre a interpretazioni distorte dei dati. La seconda parte della tesi è dedicata all’anonimizzazione di un dataset sui consumi energetici, effettuata tramite il tool ARX secondo il criterio del k-anonimato per i quasi-identificatori e l-diversity per le variabili sensibili. L’analisi del rischio ha mostrato una sostanziale riduzione della probabilità di re-identificazione, mentre la perdita informativa è stata valutata mediante metriche di data utility, tra cui entropia non uniforme e discernibilità. Nonostante la drastica riduzione del rischio di re-identificazione, l’utilità dei dati per le successive analisi non è risultata compromessa in maniera significativa. Inoltre, è stata condotta una valutazione dell’impatto dell’anonimizzazione sulle performance di modelli di classificazione supervisionata, tra cui Logistic Regression, Decision Tree e Random Forest, utilizzando accuratezza e F1-measure come metriche di valutazione. I risultati evidenziano come l’anonimizzazione introduca una riduzione delle performance predittive, con variazioni più marcate per alcuni algoritmi rispetto ad altri. Tuttavia, le prestazioni rimangono in diversi casi soddisfacenti, dimostrando che è possibile bilanciare tutela della privacy e mantenimento dell’utilità analitica dei dati. Infine, è stata condotta una valutazione dell’impatto dell’anonimizzazione sull’aggregabilità delle misure discussa nei primi capitoli della tesi. L’applicazione di tecniche di anonimizzazione introduce una perdita di dettaglio informativo che si riflette non solo sulle capacità predittiva degli algoritmi di machine learning ma anche sull’aggregabilità delle misure, riducendo quindi la precisione delle analisi basate sull’aggregazione. In sintesi, l’anonimizzazione consente di rafforzare la tutela della privacy, ma al costo di una minore accuratezza sia nei calcoli aggregati sia nelle previsioni dei modelli. La ricerca mette quindi in evidenza come sia possibile bilanciare protezione della privacy e utilità dei dati, offrendo un contributo sia metodologico sia applicativo alla data science e alla tutela dei dati personali.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				Data Warehouse
Aggregabilità
Anonimizzazione dati
Privacy dati
Machine Learning
			
	Relatore
	
				BENEVENTANO, DOMENICO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Scarlino.Laura.pdf embargo fino al 15/10/2028 Dimensione 1.94 MB Formato Adobe PDF	1.94 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3702