Le procedure chirurgiche sono intrinsecamente complesse, caratterizzate da un’elevata variabilità sia nella presentazione anatomica sia nelle fasi operative. Il riconoscimento automatico delle fasi chirurgiche (Surgical Phase Recognition, SPR) rappresenta un’applicazione promettente dell’intelligenza artificiale (AI), volta a suddividere le procedure in fasi clinicamente significative, così da supportare sia la guida intraoperatoria sia l’analisi postoperatoria. Sebbene gli approcci basati su deep learning abbiano raggiunto risultati notevoli in questo ambito, la loro natura di “scatola nera” solleva preoccupazioni in merito a trasparenza, interpretabilità e affidabilità clinica. Questa tesi affronta tali sfide applicando metodi di Explainable AI (XAI) all’analisi di video chirurgici. In particolare, sono state esplorate due tecniche: le Local Interpretable Model-Agnostic Explanations (LIME), che offrono un’interpretazione agnostica rispetto al modello, e la Gradient-weighted Class Activation Mapping (Grad-CAM), una tecnica di visualizzazione basata su reti neurali convoluzionali. Entrambe le metodologie sono state applicate a modelli pre-addestrati per il riconoscimento delle fasi chirurgiche e la segmentazione semantica nella nefrectomia parziale robot-assistita (RAPN), un intervento caratterizzato da un’elevata variabilità intraoperatoria. A causa della complessità del compito, per l’applicazione di LIME è stato necessario ricorrere a maschere di segmentazione subottimali. Queste maschere sono state integrate anche in Grad-CAM, dando origine a un approccio Semantic Grad-CAM che arricchisce la visualizzazione con significato anatomico e fornisce alle spiegazioni un contesto che riguarda le strutture anatomiche e chirurgiche. I risultati ottenuti dimostrano che l’XAI non solo fornisce preziose informazioni sui processi decisionali dei modelli, ma evidenzia anche differenze tra le reti di deep learning e le loro previsioni nelle diverse fasi chirurgiche. Migliorando l’interpretabilità, questo lavoro contribuisce è un passo in avanti per colmare il divario tra modelli AI e la loro applicazione sicura e affidabile nella pratica chirurgica.
Surgical procedures are inherently complex, marked by significant variability in both anatomical presentation and procedural workflow. Surgical Phase Recognition (SPR) has emerged as a promising application of Artificial Intelligence (AI), aiming to segment surgical procedures into clinically meaningful phases to support intraoperative guidance and postoperative analysis. While deep learning approaches have achieved remarkable performance in this field, their black-box nature raises concerns regarding transparency, interpretability, and clinical trust. This thesis addresses these challenges by applying Explainable AI (XAI) methods to surgical video analysis. Specifically, two techniques were explored: Local Interpretable Model-Agnostic Explanations (LIME), which provides model-agnostic feature attribution, and Gradient-weighted Class Activation Mapping (Grad-CAM), a CNN-based visualization technique. Both methods were applied to pre-trained models for SPR and semantic segmentation in Robot-Assisted Partial Nephrectomy (RAPN), a surgery characterized by high intraoperative variability. Due to the complexity of the task, suboptimal segmentation masks were required to apply LIME. These masks were also integrated into Grad-CAM, resulting in a Semantic Grad-CAM approach that enriched visualizations with anatomical meaning and gave explanations with clinically relevant structures. The results demonstrate that XAI not only offers valuable insights into model decision-making but also reveals differences between deep learning networks and their predictions across distinct surgical phases. By enhancing interpretability, this work contributes to bridging the gap between high-performing AI models and their safe, trustworthy application in surgical practice.
Application of explainable AI methods for the recognition of surgical phases in Robot-Assisted Partial Nephrectomy Applicazione di metodi di IA spiegabili per il riconoscimento delle fasi chirurgiche nella nefrectomia parziale assistita da robot
NASI, GIACOMO
2024/2025
Abstract
Le procedure chirurgiche sono intrinsecamente complesse, caratterizzate da un’elevata variabilità sia nella presentazione anatomica sia nelle fasi operative. Il riconoscimento automatico delle fasi chirurgiche (Surgical Phase Recognition, SPR) rappresenta un’applicazione promettente dell’intelligenza artificiale (AI), volta a suddividere le procedure in fasi clinicamente significative, così da supportare sia la guida intraoperatoria sia l’analisi postoperatoria. Sebbene gli approcci basati su deep learning abbiano raggiunto risultati notevoli in questo ambito, la loro natura di “scatola nera” solleva preoccupazioni in merito a trasparenza, interpretabilità e affidabilità clinica. Questa tesi affronta tali sfide applicando metodi di Explainable AI (XAI) all’analisi di video chirurgici. In particolare, sono state esplorate due tecniche: le Local Interpretable Model-Agnostic Explanations (LIME), che offrono un’interpretazione agnostica rispetto al modello, e la Gradient-weighted Class Activation Mapping (Grad-CAM), una tecnica di visualizzazione basata su reti neurali convoluzionali. Entrambe le metodologie sono state applicate a modelli pre-addestrati per il riconoscimento delle fasi chirurgiche e la segmentazione semantica nella nefrectomia parziale robot-assistita (RAPN), un intervento caratterizzato da un’elevata variabilità intraoperatoria. A causa della complessità del compito, per l’applicazione di LIME è stato necessario ricorrere a maschere di segmentazione subottimali. Queste maschere sono state integrate anche in Grad-CAM, dando origine a un approccio Semantic Grad-CAM che arricchisce la visualizzazione con significato anatomico e fornisce alle spiegazioni un contesto che riguarda le strutture anatomiche e chirurgiche. I risultati ottenuti dimostrano che l’XAI non solo fornisce preziose informazioni sui processi decisionali dei modelli, ma evidenzia anche differenze tra le reti di deep learning e le loro previsioni nelle diverse fasi chirurgiche. Migliorando l’interpretabilità, questo lavoro contribuisce è un passo in avanti per colmare il divario tra modelli AI e la loro applicazione sicura e affidabile nella pratica chirurgica.| File | Dimensione | Formato | |
|---|---|---|---|
|
Nasi.Giacomo.pdf
Accesso riservato
Dimensione
53.94 MB
Formato
Adobe PDF
|
53.94 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/3857