Conservazione della Data Utility in Presenza di Anonimizzazione: Un’Analisi tramite Schema Matching

Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.

Conservazione della Data Utility in Presenza di Anonimizzazione: Un’Analisi tramite Schema Matching

LA CORTE, CARMELO

2024/2025

Abstract

Questa tesi esplora il delicato equilibrio tra protezione della privacy e conservazione del- l’utilità dei dati (data utility), analizzando l’impatto delle tecniche di anonimizzazione sul processo di schema matching. Utilizzando il dataset adult.csv, sono stati generati dataset anonimizzati mediante due algoritmi basati su k-anonymity (Mondrian e OLA), oltre a dataset perturbati tramite GECO, un generatore di errori realistici a livello di istanza. L’obiettivo principale è valutare in che misura tali trasformazioni influenzino la ca- pacità dei matcher di individuare corrispondenze corrette tra attributi, mantenendo alta la qualità del matching. L’analisi è stata condotta impiegando il framework Valentine e due matcher instance-based di tipo statistico: DistributionBased e Jaccard. Le valutazioni sperimentali si sono basate su una duplice strategia: confronto rispetto a un gold standard noto e confronto rispetto ai risultati ottenuti su dati in chiaro, secondo l’approccio dello pseudo-gold-standard (o gold standard proxy). I risultati evidenziano che le performance dei matcher calano significativamente in presenza di anonimizzazione, in particolare per quanto riguarda il recall. OLA si dimo- stra più efficace di Mondrian nel preservare la qualità del matching, specialmente con il matcher DistributionBased. Le perturbazioni introdotte da GECO generano un impatto più variabile ma più realistico, simulando condizioni di rumore comuni nei dati reali. La tesi si conclude con un’analisi comparativa tra le tecniche sperimentate e con alcune considerazioni sui possibili sviluppi futuri, al fine di guidare la scelta del metodo più adeguato in contesti che richiedono un bilanciamento tra anonimato e qualità analitica.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				Data Anonymization
Schema Matching
Data Utility
k-Anonymity
Data Corruption
			
	Relatore
	
				BENEVENTANO, DOMENICO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
LaCorte.Carmelo.pdf Accesso riservato Dimensione 465.82 kB Formato Adobe PDF	465.82 kB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3516