Con l’emergere di nuove sfide derivanti da scenari complessi del mondo reale, gli algoritmi di apprendimento automatico devono migliorare non solo in termini di accuratezza, ma anche di fairness. Un problema cruciale è il potenziale rischio di discriminazione nei confronti di individui sulla base di attributi sensibili come età, sesso o religione. Questa tesi esplora la demographic parity come metrica di fairness, sfrutta un predittore lineare e si concentra su dataset tabellari. Una delle principali sfide affrontate è l’evoluzione delle distribuzioni dei dati nel tempo, che può causare cambiamenti tali da compromettere sia l’accuratezza che la fairness dei modelli, anche dopo il retraining. Questo evidenzia un persistente trade-off tra accuratezza ed fairness. Per affrontare questi problemi, viene introdotta una nuova tecnica chiamata Geometrical Alignment. L’idea è di modificare un modello lineare già esistente senza riaddestrarlo, applicando traslazioni e rotazioni basate sul coefficiente di correlazione di Pearson. Questo metodo mira a riallineare il modello per mantenere la fairness e, potenzialmente, migliorare anche l’accuratezza. L’approccio è inoltre esteso a contesti multidimensionali e l’ottimizzazione degli iperparametri viene effettuata tramite l’algoritmo Hyperband. Infine, test empirici su dati sintetici e sul dataset UCI Adult Census confrontano le prestazioni di questo metodo con tecniche già consolidate, dimostrando il suo potenziale nel mantenere la fairness anche in presenza di data drift.
As new emerging challenges rise from complex real-world scenarios, ML algorithms have to improve, not only in terms of accuracy, but also fairness. A key issue is the potential for discrimination against individuals based on sensitive attributes such as age, sex, or religion. This thesis explores demographic parity as a fairness metric, leverages linear predictor and focuses on tabular dataset. A central challenge is that data distributions evolve over time, leading to shifts that can degrade both the accuracy and fairness of models, even after retraining. This introduces a persistent trade-off between fairness and accuracy. To address these problems, a novel technique called Geometrical Alignment is introduced. The idea is adjusting the already existing linear model without retraining it, by applying translations and rotations informed by the Pearson correlation coefficient. This method aims to realign the model to maintain fairness and potentially improve accuracy. The approach is further extended to multidimensional settings and hyperparameters are optimized using Hyperband. Finally, empirical tests on synthetic data and the UCI Adult Census dataset compare the performance of this method against established fairness-aware techniques, demonstrating its potential to maintain fairness under data drift.
Geometrical Alignment: a geometric continual learning method for managing algorithmic fairness in data drift
FORONI, GIULIA
2024/2025
Abstract
Con l’emergere di nuove sfide derivanti da scenari complessi del mondo reale, gli algoritmi di apprendimento automatico devono migliorare non solo in termini di accuratezza, ma anche di fairness. Un problema cruciale è il potenziale rischio di discriminazione nei confronti di individui sulla base di attributi sensibili come età, sesso o religione. Questa tesi esplora la demographic parity come metrica di fairness, sfrutta un predittore lineare e si concentra su dataset tabellari. Una delle principali sfide affrontate è l’evoluzione delle distribuzioni dei dati nel tempo, che può causare cambiamenti tali da compromettere sia l’accuratezza che la fairness dei modelli, anche dopo il retraining. Questo evidenzia un persistente trade-off tra accuratezza ed fairness. Per affrontare questi problemi, viene introdotta una nuova tecnica chiamata Geometrical Alignment. L’idea è di modificare un modello lineare già esistente senza riaddestrarlo, applicando traslazioni e rotazioni basate sul coefficiente di correlazione di Pearson. Questo metodo mira a riallineare il modello per mantenere la fairness e, potenzialmente, migliorare anche l’accuratezza. L’approccio è inoltre esteso a contesti multidimensionali e l’ottimizzazione degli iperparametri viene effettuata tramite l’algoritmo Hyperband. Infine, test empirici su dati sintetici e sul dataset UCI Adult Census confrontano le prestazioni di questo metodo con tecniche già consolidate, dimostrando il suo potenziale nel mantenere la fairness anche in presenza di data drift.| File | Dimensione | Formato | |
|---|---|---|---|
|
Foroni.Giulia.pdf
accesso aperto
Dimensione
1.16 MB
Formato
Adobe PDF
|
1.16 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3404