L’endoscopia capsulare del tenue (SBCE) `e uno strumento prezioso per la valutazione della malattia di Crohn, ma il suo impiego clinico `e limitato dall’elevato numero di frame da esaminare e dalla difficolt`a di identificare lesioni sottili, sparse ed eterogenee. Al contempo, molti studi di intelligenza artificiale pubblicati riportano prestazioni elevate in condizioni di valutazione non pienamente rappresentative di uno screening realistico. Questa tesi affronta lo screening automatizzato della malattia di Crohn in SBCE da una prospettiva data-centric, con l’obiettivo di comprendere come la costruzione del dataset, la progettazione degli split e il protocollo di valutazione influenzino l’affidabilit`a dei risultati riportati. ` E stata sviluppata una pipeline sperimentale unificata combinando tre dataset SBCE pub blici con schemi di annotazione, strutture di raggruppamento e dispositivi di acquisizione differenti. La pipeline comprende l’armonizzazione delle etichette in uno spazio comune ori entato allo screening, la riduzione della ridondanza guidata da embedding, la mitigazione della dominanza della classe Blood e l’ottimizzazione degli split per paziente formulata come problema combinatorio vincolato. Embedding DINOv2 congelati sono stati utilizzati come rappresentazioni visive generiche, e gli esperimenti di classificazione sono stati condotti con modelli lineari e teste non lineari leggere in condizioni realistiche di bassa prevalenza. I risultati mostrano che i classificatori lineari sono sistematicamente limitati da un severo trade-off recall–precisione per la classe Crohn, mentre una MLP shallow migliora sia re call sia precisione, indicando che lo spazio embedding contiene struttura discriminativa non lineare utile. Tuttavia, incrementi ulteriori nella complessit`a del modello non superano i colli di bottiglia principali, che restano legati alla bassa prevalenza della malattia, alla lim itata diversit`a dei pazienti e all’indipendenza frame-level. A livello patologico, esperimenti di triage workload-aware basati su Recall@10% per paziente hanno fornito un contesto di valutazione clinicamente pi`u significativo e mostrato un segnale di triage non banale, con la formulazione binaria erosione-versus-rest superiore all’alternativa a tre classi. Gli esperimenti a livello patologico hanno inoltre mostrato che l’assegnazione degli split pu`o avere un im patto sulle prestazioni maggiore della variazione degli iperparametri. Infine, il test zero-shot con MedGemma non ha superato la pipeline supervisionata e ha mostrato una forte sovra predizione della classe Crohn, evidenziando i limiti dei grandi modelli medici vision–language quando applicati senza supervisione task-specific e valutazione attentamente controllata. Nel complesso, la tesi mostra che, nello screening realistico della malattia di Crohn in SBCE, le prestazioni sono determinate meno dalla scala del modello in s´e che dall’interazione tra curazione dei dati, valutazione a livello paziente e formulazione del task. Il contributo prin cipale non `e quindi la proposta di un rilevatore pronto per il deployment clinico, ma la definizione di un framework riproducibile per ottenere stime di prestazione pi`u affidabili sotto vincoli clinicamente significativi.
Small-Bowel Capsule Endoscopy (SBCE) is a valuable tool for Crohn’s disease assessment, but its clinical use is limited by the large number of frames that must be reviewed and by the difficulty of identifying subtle, sparse, and heterogeneous lesions. At the same time, many published AI studies report high performance under evaluation settings that are not fully representative of realistic screening conditions. This thesis addresses automated Crohn’s dis ease screening in SBCE from a data-centric perspective, with the aim of understanding how dataset construction, split design, and evaluation protocol affect the reliability of reported results. Aunified experimental pipeline was developed by combining three public SBCE datasets with different annotation schemes, grouping structures, and acquisition devices. The pipeline in cluded label harmonization into a common screening-oriented label space, embedding-guided redundancy reduction, mitigation of Blood dominance, and patient-wise split optimization formulated as a constrained combinatorial problem. Frozen DINOv2 embeddings were used as generic visual representations, and classification experiments were conducted with linear models and lightweight non-linear heads under realistic low-prevalence conditions. The results showed that linear classifiers were consistently limited by a severe Crohn recall precision trade-off, while a shallow MLP improved both recall and precision, indicating that the embedding space contained useful non-linear discriminative structure. However, broader increases in model complexity did not overcome the main bottlenecks, which remained tied to low disease prevalence, limited patient diversity, and frame-level independence. At pathol ogy level, workload-aware triage experiments based on Recall@10% per patient provided a more clinically meaningful evaluation setting and showed a non-trivial triage signal, with the binary erosion-versus-rest formulation outperforming the three-class alternative. Pathology level experiments further showed that split assignment could have a larger impact on perfor mance than hyperparameter variation. Finally, zero-shot testing with MedGemma did not surpass the supervised pipeline and showed strong Crohn over-prediction, highlighting the limits of large medical vision–language models when applied without task-specific supervision and carefully controlled evaluation. Overall, the thesis shows that, in realistic SBCE Crohn screening, performance is shaped less by model scale alone than by the interaction between data curation, patient-level evaluation, and task formulation. Its main contribution is therefore not the proposal of a deployment ready detector, but the definition of a reproducible framework for obtaining more trustworthy performance estimates under clinically meaningful constraints.
Automated Crohn’s Disease Screening in Small-Bowel Capsule Endoscopy: A Data-Centric Pipeline for Reliable Workload-Aware Evaluation Screening automatizzato della malattia di Crohn mediante videocapsula endoscopica dell’intestino tenue: una pipeline data-centrica per una valutazione affidabile orientata al carico di lavoro clinico
FERRAMOLA, MICHELE
2024/2025
Abstract
L’endoscopia capsulare del tenue (SBCE) `e uno strumento prezioso per la valutazione della malattia di Crohn, ma il suo impiego clinico `e limitato dall’elevato numero di frame da esaminare e dalla difficolt`a di identificare lesioni sottili, sparse ed eterogenee. Al contempo, molti studi di intelligenza artificiale pubblicati riportano prestazioni elevate in condizioni di valutazione non pienamente rappresentative di uno screening realistico. Questa tesi affronta lo screening automatizzato della malattia di Crohn in SBCE da una prospettiva data-centric, con l’obiettivo di comprendere come la costruzione del dataset, la progettazione degli split e il protocollo di valutazione influenzino l’affidabilit`a dei risultati riportati. ` E stata sviluppata una pipeline sperimentale unificata combinando tre dataset SBCE pub blici con schemi di annotazione, strutture di raggruppamento e dispositivi di acquisizione differenti. La pipeline comprende l’armonizzazione delle etichette in uno spazio comune ori entato allo screening, la riduzione della ridondanza guidata da embedding, la mitigazione della dominanza della classe Blood e l’ottimizzazione degli split per paziente formulata come problema combinatorio vincolato. Embedding DINOv2 congelati sono stati utilizzati come rappresentazioni visive generiche, e gli esperimenti di classificazione sono stati condotti con modelli lineari e teste non lineari leggere in condizioni realistiche di bassa prevalenza. I risultati mostrano che i classificatori lineari sono sistematicamente limitati da un severo trade-off recall–precisione per la classe Crohn, mentre una MLP shallow migliora sia re call sia precisione, indicando che lo spazio embedding contiene struttura discriminativa non lineare utile. Tuttavia, incrementi ulteriori nella complessit`a del modello non superano i colli di bottiglia principali, che restano legati alla bassa prevalenza della malattia, alla lim itata diversit`a dei pazienti e all’indipendenza frame-level. A livello patologico, esperimenti di triage workload-aware basati su Recall@10% per paziente hanno fornito un contesto di valutazione clinicamente pi`u significativo e mostrato un segnale di triage non banale, con la formulazione binaria erosione-versus-rest superiore all’alternativa a tre classi. Gli esperimenti a livello patologico hanno inoltre mostrato che l’assegnazione degli split pu`o avere un im patto sulle prestazioni maggiore della variazione degli iperparametri. Infine, il test zero-shot con MedGemma non ha superato la pipeline supervisionata e ha mostrato una forte sovra predizione della classe Crohn, evidenziando i limiti dei grandi modelli medici vision–language quando applicati senza supervisione task-specific e valutazione attentamente controllata. Nel complesso, la tesi mostra che, nello screening realistico della malattia di Crohn in SBCE, le prestazioni sono determinate meno dalla scala del modello in s´e che dall’interazione tra curazione dei dati, valutazione a livello paziente e formulazione del task. Il contributo prin cipale non `e quindi la proposta di un rilevatore pronto per il deployment clinico, ma la definizione di un framework riproducibile per ottenere stime di prestazione pi`u affidabili sotto vincoli clinicamente significativi.| File | Dimensione | Formato | |
|---|---|---|---|
|
Ferramola.Michele.pdf
accesso aperto
Dimensione
18.29 MB
Formato
Adobe PDF
|
18.29 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/5785