A Computational Framework for the Functional Analysis of Gene Fusions

Le fusioni geniche possono generare proteine chimeriche, troncare regioni oncosoppressorie o deregolare l'espressione e, perciò, sono una condizione diffusa nei pazienti con tumore. Sebbene il rilevamento basato su RNA-seq sia ormai di routine, l'interpretazione funzionale a livello dei domini proteici rimane un importante collo di bottiglia: risorse curate come InterProScan sono accurate ma ottimizzate per proteine canoniche e lente su larga scala, mentre i metodi di prioritizzazione basati sul machine learning ed AI spesso si comportano come scatole nere, con limitata capacità di spiegazione. Questa tesi presenta un framework modulare che converte il dato grezzo delle fusioni geniche individuate in un dato ricco di informazioni tramite l'annotazione trasparente dei domini proteici ed una prioritizzazione interpretabile. In primo luogo, i punti di rottura delle fusioni ottenuti da nf-core/rnafusion (Arriba) vengono mappati sulle annotazioni di Ensembl per ricostruire trascritti e peptidi chimerici, con una valutazione sistematica dell’integrità del frame e l’uso preferenziale degli isoformi MANE. In secondo luogo, viene introdotto un modulo di annotazione con retrieval augmentation. I peptidi vengono sottoposti ad embedding tramite ESM2 e successivamente viene effettuata una ricerca tramite FAISS index del loro vicino più prossimo in un set di riferimento etichettato tramite InterProScan. I domini che vengono assegnati devono superare una certa soglia di similarità e sono accompagnati da una provenienza e descrizione esplicita, combinando scalabilità e spiegabilità. InterProScan è mantenuto come baseline e per etichettare il corpus di riferimento, disaccoppiando l'analisi in produzione dal tempo di esecuzione vincolato alla CPU. In terzo luogo, i grafici PDF di Arriba vengono riutilizzati come evidenza quantitativa di espressione rasterizzando gli istogrammi di copertura e segmentandoli in corrispondenza dei confini esonici, abilitando il confronto diretto del segnale a monte e a valle dei punti di rottura. In ultimo, il framework prioritizza le fusioni usando le informazioni estratte ed un PU-graph, il quale propaga le etichette positive a nodi simili. Unendo ricostruzione precisa, inferenza scalabile e spiegabile dei domini, valutazione quantitativa dell'espressione e prioritizzazione, questo framework mira a colmare il divario tra rilevamento ed interpretazione delle fusioni. In tal modo, fornisce una base per studi oncologici su larga scala e clinicamente rilevanti, contribuendo ad identificare domini chinasici conservati, regioni oncosoppressorie compromesse ed altre alterazioni che guidano il targeting terapeutico e la medicina di precisione.

Gene fusions are widespread in cancer and can generate chimeric proteins, truncate tumor-suppressor regions, or dysregulate expression. Although RNA-seq–based detection is now routine, functional interpretation at the protein domain level remains a major bottleneck: curated resources such as InterProScan are accurate but optimized for canonical proteins and are slow at scale, while machine-learning and AI prioritizers often act as black boxes with limited mechanistic insight. This thesis presents a modular framework that converts raw fusion calls into transparent, domain-level annotations and interpretable prioritization. First, fusion breakpoints from nf-core/rnafusion (Arriba) are mapped onto Ensembl annotations to reconstruct chimeric transcripts and peptides, with systematic assessment of frame integrity and preferential use of MANE isoforms. Second, a retrieval-augmented annotation module is introduced. It embeds peptides with ESM2 and performs nearest-neighbor search with FAISS over a reference set labeled by InterProScan. Domain labels are transferred when similarity exceeds a tuned threshold and are accompanied by explicit provenance and description, combining scalability with explainability. InterProScan is retained as a baseline and to label the reference corpus, decoupling production analysis from CPU-bound runtime. Third, Arriba PDF plots are repurposed as quantitative expression evidence by rasterizing coverage histograms and segmenting by exon boundaries, enabling direct comparison of signal upstream and downstream of breakpoints. Finally, the fusions are prioritized using the extracted information and a PU-graph, which propagates positive ground-truth labels to similar nodes. By unifying precise reconstruction, scalable and explainable domain inference, quantitative expression assessment and prioritization, this work aims to bridge the gap between fusion detection and interpretation. In doing so, it provides a foundation for large-scale, clinically relevant oncology studies, helping to identify retained kinase domains, disrupted tumor-suppressor regions, and other actionable alterations that inform therapeutic targeting and precision medicine.