Metodi di spiegazione controfattuale per modelli di machine learning: analisi, classificazione e valutazione comparativa

La crescente diffusione dei sistemi di apprendimento automatico ha reso sempre più centrale il problema dell’interpretabilità dei modelli predittivi. In questo contesto, le spiegazioni controfattuali rappresentano uno dei principali metodi di spiegazione post-hoc locale, poiché consentono di individuare quali modifiche alle caratteristiche di un’istanza possano determinare un cambiamento della decisione prodotta dal modello. Il loro interesse risiede nella capacità di rendere più comprensibili modelli complessi, offrendo al tempo stesso indicazioni utili sulle condizioni che permettono di ottenere un esito diverso. Il presente lavoro si propone innanzitutto di analizzare i principali contributi della letteratura scientifica recente dedicati alle spiegazioni controfattuali, con l’obiettivo di identificarne i fondamenti teorici e le principali linee metodologiche. A partire da tale ricognizione, i metodi esaminati sono stati classificati in diverse categorie, distinguendo tra approcci basati su problemi di ottimizzazione, algoritmi di ricerca euristica, tecniche instance-based e metodi che sfruttano modelli surrogati interpretabili. Su questa base, la tesi sviluppa un’analisi comparativa in ambiente Python di quattro metodi rappresentativi per la generazione di spiegazioni controfattuali — CERL, EBCF, LORE e NICE — applicati a dataset differenti, mantenendo costante il classificatore da spiegare. La valutazione adotta una prospettiva multi-obiettivo e considera efficiency, proximity, instability, diversity, validity e actionability, assumendo che nessun metodo possa essere giudicato in base a un solo parametro. I risultati mostrano che NICE eccelle in efficienza, EBCF in stabilità, LORE in proximity e diversity, mentre CERL è il metodo che realizza il compromesso complessivamente più convincente, grazie a un profilo bilanciato tra validità, rapidità, stabilità moderata, competitività in prossimità e controllo diretto sulle feature immutabili. La conclusione è che il valore di un metodo controfattuale non risiede nella massimizzazione isolata di una singola metrica, ma nella capacità di conciliare esigenze diverse e talvolta concorrenti: comprensibilità, affidabilità, rapidità, rispetto dei vincoli applicativi e tutela da effetti discriminatori. In questo contesto, CERL emerge come la soluzione più equilibrata tra quelle esaminate

Metodi di spiegazione controfattuale per modelli di machine learning: analisi, classificazione e valutazione comparativa

SPATHIS, COSTANTINOS

2024/2025

Abstract

La crescente diffusione dei sistemi di apprendimento automatico ha reso sempre più centrale il problema dell’interpretabilità dei modelli predittivi. In questo contesto, le spiegazioni controfattuali rappresentano uno dei principali metodi di spiegazione post-hoc locale, poiché consentono di individuare quali modifiche alle caratteristiche di un’istanza possano determinare un cambiamento della decisione prodotta dal modello. Il loro interesse risiede nella capacità di rendere più comprensibili modelli complessi, offrendo al tempo stesso indicazioni utili sulle condizioni che permettono di ottenere un esito diverso. Il presente lavoro si propone innanzitutto di analizzare i principali contributi della letteratura scientifica recente dedicati alle spiegazioni controfattuali, con l’obiettivo di identificarne i fondamenti teorici e le principali linee metodologiche. A partire da tale ricognizione, i metodi esaminati sono stati classificati in diverse categorie, distinguendo tra approcci basati su problemi di ottimizzazione, algoritmi di ricerca euristica, tecniche instance-based e metodi che sfruttano modelli surrogati interpretabili. Su questa base, la tesi sviluppa un’analisi comparativa in ambiente Python di quattro metodi rappresentativi per la generazione di spiegazioni controfattuali — CERL, EBCF, LORE e NICE — applicati a dataset differenti, mantenendo costante il classificatore da spiegare. La valutazione adotta una prospettiva multi-obiettivo e considera efficiency, proximity, instability, diversity, validity e actionability, assumendo che nessun metodo possa essere giudicato in base a un solo parametro. I risultati mostrano che NICE eccelle in efficienza, EBCF in stabilità, LORE in proximity e diversity, mentre CERL è il metodo che realizza il compromesso complessivamente più convincente, grazie a un profilo bilanciato tra validità, rapidità, stabilità moderata, competitività in prossimità e controllo diretto sulle feature immutabili. La conclusione è che il valore di un metodo controfattuale non risiede nella massimizzazione isolata di una singola metrica, ma nella capacità di conciliare esigenze diverse e talvolta concorrenti: comprensibilità, affidabilità, rapidità, rispetto dei vincoli applicativi e tutela da effetti discriminatori. In questo contesto, CERL emerge come la soluzione più equilibrata tra quelle esaminate

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				XAI
Controfattuali
Machine Learning
Interpretabilità
Analisi comparativa
			
	Relatore
	
				GUERRA, FRANCESCO
			
	Controrelatore
	
				PAGANELLI, MATTEO
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Spathis.Costantinos.pdf accesso aperto Dimensione 2.47 MB Formato Adobe PDF Visualizza/Apri	2.47 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/5361