La crescente diffusione dei sistemi di apprendimento automatico ha reso sempre più centrale il problema dell’interpretabilità dei modelli predittivi. In questo contesto, le spiegazioni controfattuali rappresentano uno dei principali metodi di spiegazione post-hoc locale, poiché consentono di individuare quali modifiche alle caratteristiche di un’istanza possano determinare un cambiamento della decisione prodotta dal modello. Il loro interesse risiede nella capacità di rendere più comprensibili modelli complessi, offrendo al tempo stesso indicazioni utili sulle condizioni che permettono di ottenere un esito diverso. Il presente lavoro si propone innanzitutto di analizzare i principali contributi della letteratura scientifica recente dedicati alle spiegazioni controfattuali, con l’obiettivo di identificarne i fondamenti teorici e le principali linee metodologiche. A partire da tale ricognizione, i metodi esaminati sono stati classificati in diverse categorie, distinguendo tra approcci basati su problemi di ottimizzazione, algoritmi di ricerca euristica, tecniche instance-based e metodi che sfruttano modelli surrogati interpretabili. Su questa base, la tesi sviluppa un’analisi comparativa in ambiente Python di quattro metodi rappresentativi per la generazione di spiegazioni controfattuali — CERL, EBCF, LORE e NICE — applicati a dataset differenti, mantenendo costante il classificatore da spiegare. La valutazione adotta una prospettiva multi-obiettivo e considera efficiency, proximity, instability, diversity, validity e actionability, assumendo che nessun metodo possa essere giudicato in base a un solo parametro. I risultati mostrano che NICE eccelle in efficienza, EBCF in stabilità, LORE in proximity e diversity, mentre CERL è il metodo che realizza il compromesso complessivamente più convincente, grazie a un profilo bilanciato tra validità, rapidità, stabilità moderata, competitività in prossimità e controllo diretto sulle feature immutabili. La conclusione è che il valore di un metodo controfattuale non risiede nella massimizzazione isolata di una singola metrica, ma nella capacità di conciliare esigenze diverse e talvolta concorrenti: comprensibilità, affidabilità, rapidità, rispetto dei vincoli applicativi e tutela da effetti discriminatori. In questo contesto, CERL emerge come la soluzione più equilibrata tra quelle esaminate

Metodi di spiegazione controfattuale per modelli di machine learning: analisi, classificazione e valutazione comparativa

SPATHIS, COSTANTINOS
2024/2025

Abstract

La crescente diffusione dei sistemi di apprendimento automatico ha reso sempre più centrale il problema dell’interpretabilità dei modelli predittivi. In questo contesto, le spiegazioni controfattuali rappresentano uno dei principali metodi di spiegazione post-hoc locale, poiché consentono di individuare quali modifiche alle caratteristiche di un’istanza possano determinare un cambiamento della decisione prodotta dal modello. Il loro interesse risiede nella capacità di rendere più comprensibili modelli complessi, offrendo al tempo stesso indicazioni utili sulle condizioni che permettono di ottenere un esito diverso. Il presente lavoro si propone innanzitutto di analizzare i principali contributi della letteratura scientifica recente dedicati alle spiegazioni controfattuali, con l’obiettivo di identificarne i fondamenti teorici e le principali linee metodologiche. A partire da tale ricognizione, i metodi esaminati sono stati classificati in diverse categorie, distinguendo tra approcci basati su problemi di ottimizzazione, algoritmi di ricerca euristica, tecniche instance-based e metodi che sfruttano modelli surrogati interpretabili. Su questa base, la tesi sviluppa un’analisi comparativa in ambiente Python di quattro metodi rappresentativi per la generazione di spiegazioni controfattuali — CERL, EBCF, LORE e NICE — applicati a dataset differenti, mantenendo costante il classificatore da spiegare. La valutazione adotta una prospettiva multi-obiettivo e considera efficiency, proximity, instability, diversity, validity e actionability, assumendo che nessun metodo possa essere giudicato in base a un solo parametro. I risultati mostrano che NICE eccelle in efficienza, EBCF in stabilità, LORE in proximity e diversity, mentre CERL è il metodo che realizza il compromesso complessivamente più convincente, grazie a un profilo bilanciato tra validità, rapidità, stabilità moderata, competitività in prossimità e controllo diretto sulle feature immutabili. La conclusione è che il valore di un metodo controfattuale non risiede nella massimizzazione isolata di una singola metrica, ma nella capacità di conciliare esigenze diverse e talvolta concorrenti: comprensibilità, affidabilità, rapidità, rispetto dei vincoli applicativi e tutela da effetti discriminatori. In questo contesto, CERL emerge come la soluzione più equilibrata tra quelle esaminate
2024
XAI
Controfattuali
Machine Learning
Interpretabilità
Analisi comparativa
File in questo prodotto:
File Dimensione Formato  
Spathis.Costantinos.pdf

accesso aperto

Dimensione 2.47 MB
Formato Adobe PDF
2.47 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/5361