Automated Crohn’s Disease Screening in Small-Bowel Capsule Endoscopy: A Data-Centric Pipeline for Reliable Workload-Aware Evaluation

Screening automatizzato della malattia di Crohn mediante videocapsula endoscopica dell’intestino tenue: una pipeline data-centrica per una valutazione affidabile orientata al carico di lavoro clinico

L’endoscopia capsulare del tenue (SBCE) `e uno strumento prezioso per la valutazione della malattia di Crohn, ma il suo impiego clinico `e limitato dall’elevato numero di frame da esaminare e dalla difficolt`a di identificare lesioni sottili, sparse ed eterogenee. Al contempo, molti studi di intelligenza artificiale pubblicati riportano prestazioni elevate in condizioni di valutazione non pienamente rappresentative di uno screening realistico. Questa tesi affronta lo screening automatizzato della malattia di Crohn in SBCE da una prospettiva data-centric, con l’obiettivo di comprendere come la costruzione del dataset, la progettazione degli split e il protocollo di valutazione influenzino l’affidabilit`a dei risultati riportati. ` E stata sviluppata una pipeline sperimentale unificata combinando tre dataset SBCE pub blici con schemi di annotazione, strutture di raggruppamento e dispositivi di acquisizione differenti. La pipeline comprende l’armonizzazione delle etichette in uno spazio comune ori entato allo screening, la riduzione della ridondanza guidata da embedding, la mitigazione della dominanza della classe Blood e l’ottimizzazione degli split per paziente formulata come problema combinatorio vincolato. Embedding DINOv2 congelati sono stati utilizzati come rappresentazioni visive generiche, e gli esperimenti di classificazione sono stati condotti con modelli lineari e teste non lineari leggere in condizioni realistiche di bassa prevalenza. I risultati mostrano che i classificatori lineari sono sistematicamente limitati da un severo trade-off recall–precisione per la classe Crohn, mentre una MLP shallow migliora sia re call sia precisione, indicando che lo spazio embedding contiene struttura discriminativa non lineare utile. Tuttavia, incrementi ulteriori nella complessit`a del modello non superano i colli di bottiglia principali, che restano legati alla bassa prevalenza della malattia, alla lim itata diversit`a dei pazienti e all’indipendenza frame-level. A livello patologico, esperimenti di triage workload-aware basati su Recall@10% per paziente hanno fornito un contesto di valutazione clinicamente pi`u significativo e mostrato un segnale di triage non banale, con la formulazione binaria erosione-versus-rest superiore all’alternativa a tre classi. Gli esperimenti a livello patologico hanno inoltre mostrato che l’assegnazione degli split pu`o avere un im patto sulle prestazioni maggiore della variazione degli iperparametri. Infine, il test zero-shot con MedGemma non ha superato la pipeline supervisionata e ha mostrato una forte sovra predizione della classe Crohn, evidenziando i limiti dei grandi modelli medici vision–language quando applicati senza supervisione task-specific e valutazione attentamente controllata. Nel complesso, la tesi mostra che, nello screening realistico della malattia di Crohn in SBCE, le prestazioni sono determinate meno dalla scala del modello in s´e che dall’interazione tra curazione dei dati, valutazione a livello paziente e formulazione del task. Il contributo prin cipale non `e quindi la proposta di un rilevatore pronto per il deployment clinico, ma la definizione di un framework riproducibile per ottenere stime di prestazione pi`u affidabili sotto vincoli clinicamente significativi.

Small-Bowel Capsule Endoscopy (SBCE) is a valuable tool for Crohn’s disease assessment, but its clinical use is limited by the large number of frames that must be reviewed and by the difficulty of identifying subtle, sparse, and heterogeneous lesions. At the same time, many published AI studies report high performance under evaluation settings that are not fully representative of realistic screening conditions. This thesis addresses automated Crohn’s dis ease screening in SBCE from a data-centric perspective, with the aim of understanding how dataset construction, split design, and evaluation protocol affect the reliability of reported results. Aunified experimental pipeline was developed by combining three public SBCE datasets with different annotation schemes, grouping structures, and acquisition devices. The pipeline in cluded label harmonization into a common screening-oriented label space, embedding-guided redundancy reduction, mitigation of Blood dominance, and patient-wise split optimization formulated as a constrained combinatorial problem. Frozen DINOv2 embeddings were used as generic visual representations, and classification experiments were conducted with linear models and lightweight non-linear heads under realistic low-prevalence conditions. The results showed that linear classifiers were consistently limited by a severe Crohn recall precision trade-off, while a shallow MLP improved both recall and precision, indicating that the embedding space contained useful non-linear discriminative structure. However, broader increases in model complexity did not overcome the main bottlenecks, which remained tied to low disease prevalence, limited patient diversity, and frame-level independence. At pathol ogy level, workload-aware triage experiments based on Recall@10% per patient provided a more clinically meaningful evaluation setting and showed a non-trivial triage signal, with the binary erosion-versus-rest formulation outperforming the three-class alternative. Pathology level experiments further showed that split assignment could have a larger impact on perfor mance than hyperparameter variation. Finally, zero-shot testing with MedGemma did not surpass the supervised pipeline and showed strong Crohn over-prediction, highlighting the limits of large medical vision–language models when applied without task-specific supervision and carefully controlled evaluation. Overall, the thesis shows that, in realistic SBCE Crohn screening, performance is shaped less by model scale alone than by the interaction between data curation, patient-level evaluation, and task formulation. Its main contribution is therefore not the proposal of a deployment ready detector, but the definition of a reproducible framework for obtaining more trustworthy performance estimates under clinically meaningful constraints.

Automated Crohn’s Disease Screening in Small-Bowel Capsule Endoscopy: A Data-Centric Pipeline for Reliable Workload-Aware Evaluation Screening automatizzato della malattia di Crohn mediante videocapsula endoscopica dell’intestino tenue: una pipeline data-centrica per una valutazione affidabile orientata al carico di lavoro clinico

FERRAMOLA, MICHELE

2024/2025

Abstract

L’endoscopia capsulare del tenue (SBCE) `e uno strumento prezioso per la valutazione della malattia di Crohn, ma il suo impiego clinico `e limitato dall’elevato numero di frame da esaminare e dalla difficolt`a di identificare lesioni sottili, sparse ed eterogenee. Al contempo, molti studi di intelligenza artificiale pubblicati riportano prestazioni elevate in condizioni di valutazione non pienamente rappresentative di uno screening realistico. Questa tesi affronta lo screening automatizzato della malattia di Crohn in SBCE da una prospettiva data-centric, con l’obiettivo di comprendere come la costruzione del dataset, la progettazione degli split e il protocollo di valutazione influenzino l’affidabilit`a dei risultati riportati. ` E stata sviluppata una pipeline sperimentale unificata combinando tre dataset SBCE pub blici con schemi di annotazione, strutture di raggruppamento e dispositivi di acquisizione differenti. La pipeline comprende l’armonizzazione delle etichette in uno spazio comune ori entato allo screening, la riduzione della ridondanza guidata da embedding, la mitigazione della dominanza della classe Blood e l’ottimizzazione degli split per paziente formulata come problema combinatorio vincolato. Embedding DINOv2 congelati sono stati utilizzati come rappresentazioni visive generiche, e gli esperimenti di classificazione sono stati condotti con modelli lineari e teste non lineari leggere in condizioni realistiche di bassa prevalenza. I risultati mostrano che i classificatori lineari sono sistematicamente limitati da un severo trade-off recall–precisione per la classe Crohn, mentre una MLP shallow migliora sia re call sia precisione, indicando che lo spazio embedding contiene struttura discriminativa non lineare utile. Tuttavia, incrementi ulteriori nella complessit`a del modello non superano i colli di bottiglia principali, che restano legati alla bassa prevalenza della malattia, alla lim itata diversit`a dei pazienti e all’indipendenza frame-level. A livello patologico, esperimenti di triage workload-aware basati su Recall@10% per paziente hanno fornito un contesto di valutazione clinicamente pi`u significativo e mostrato un segnale di triage non banale, con la formulazione binaria erosione-versus-rest superiore all’alternativa a tre classi. Gli esperimenti a livello patologico hanno inoltre mostrato che l’assegnazione degli split pu`o avere un im patto sulle prestazioni maggiore della variazione degli iperparametri. Infine, il test zero-shot con MedGemma non ha superato la pipeline supervisionata e ha mostrato una forte sovra predizione della classe Crohn, evidenziando i limiti dei grandi modelli medici vision–language quando applicati senza supervisione task-specific e valutazione attentamente controllata. Nel complesso, la tesi mostra che, nello screening realistico della malattia di Crohn in SBCE, le prestazioni sono determinate meno dalla scala del modello in s´e che dall’interazione tra curazione dei dati, valutazione a livello paziente e formulazione del task. Il contributo prin cipale non `e quindi la proposta di un rilevatore pronto per il deployment clinico, ma la definizione di un framework riproducibile per ottenere stime di prestazione pi`u affidabili sotto vincoli clinicamente significativi.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Scienze e Metodi dell'Ingegneria
			
	Corso di studio
	
				Digital Automation Engineering
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Screening automatizzato della malattia di Crohn mediante videocapsula endoscopica dell’intestino tenue: una pipeline data-centrica per una valutazione affidabile orientata al carico di lavoro clinico
			
	Abstract in italiano
	
				Small-Bowel Capsule Endoscopy (SBCE) is a valuable tool for Crohn’s disease assessment,
but its clinical use is limited by the large number of frames that must be reviewed and by the
difficulty of identifying subtle, sparse, and heterogeneous lesions. At the same time, many
published AI studies report high performance under evaluation settings that are not fully
representative of realistic screening conditions. This thesis addresses automated Crohn’s dis
ease screening in SBCE from a data-centric perspective, with the aim of understanding how
dataset construction, split design, and evaluation protocol affect the reliability of reported
results.
Aunified experimental pipeline was developed by combining three public SBCE datasets with
different annotation schemes, grouping structures, and acquisition devices. The pipeline in
cluded label harmonization into a common screening-oriented label space, embedding-guided
redundancy reduction, mitigation of Blood dominance, and patient-wise split optimization
formulated as a constrained combinatorial problem. Frozen DINOv2 embeddings were used
as generic visual representations, and classification experiments were conducted with linear
models and lightweight non-linear heads under realistic low-prevalence conditions.
The results showed that linear classifiers were consistently limited by a severe Crohn recall
precision trade-off, while a shallow MLP improved both recall and precision, indicating that
the embedding space contained useful non-linear discriminative structure. However, broader
increases in model complexity did not overcome the main bottlenecks, which remained tied
to low disease prevalence, limited patient diversity, and frame-level independence. At pathol
ogy level, workload-aware triage experiments based on Recall@10% per patient provided a
more clinically meaningful evaluation setting and showed a non-trivial triage signal, with the
binary erosion-versus-rest formulation outperforming the three-class alternative. Pathology
level experiments further showed that split assignment could have a larger impact on perfor
mance than hyperparameter variation. Finally, zero-shot testing with MedGemma did not
surpass the supervised pipeline and showed strong Crohn over-prediction, highlighting the
limits of large medical vision–language models when applied without task-specific supervision
and carefully controlled evaluation.
Overall, the thesis shows that, in realistic SBCE Crohn screening, performance is shaped less
by model scale alone than by the interaction between data curation, patient-level evaluation,
and task formulation. Its main contribution is therefore not the proposal of a deployment
ready detector, but the definition of a reproducible framework for obtaining more trustworthy
performance estimates under clinically meaningful constraints.
			
	Parola chiave
	
				Automation
Capsule Endoscopy
Data Pipeline
Crohn's Disease
Computer Vision
			
	Relatore
	
				IORI, MANUEL
			
	Controrelatore
	
				MONICA, STEFANIA
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Ferramola.Michele.pdf accesso aperto Dimensione 18.29 MB Formato Adobe PDF Visualizza/Apri	18.29 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/5785

FERRAMOLA, MICHELE

2024/2025

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)