Papersnitch: Reproducibility Signals for Review Support

Le politiche di riproducibilità mirano a rendere la ricerca nell'ambito dell'imaging medico "verificabile" in fase di revisione; tuttavia, molti contributi presentano ancora artefatti mancanti, incompleti o non praticamente verificabili sotto i vincoli della revisione tra pari (peer-review). In un'analisi longitudinale di 3.722 articoli MICCAI, la percentuale di quelli che includono collegamenti al codice aumenta dal 51,8% al 72,5%, ma circa il 13% dei repository collegati risulta inaccessibile o vuoto, e a molti altri mancano le informazioni concrete necessarie per verificare le affermazioni senza eseguire codice non attendibile. Questa tesi introduce Paper-snitch, uno strumento di supporto decisionale rivolto ai revisori per lo screening della riproducibilità basato sulle evidenze. Paper-snitch analizza i metadati della conferenza e i PDF, risolve ed effettua controlli di validità (sanity-check) sui repository collegati, e applica una checklist consapevole delle policy e allineata con le linee guida in stile MICCAI. Invece di tentare una riproduzione completa, esegue controlli circoscritti e ispezionabili (es. presenza degli artefatti, completezza della documentazione, specifica dell'ambiente e tracciabilità dalle affermazioni ai comandi) e produce un report verificabile che collega l'esito di ciascun criterio a estratti testuali concreti e agli artefatti del repository. Gli esiti dei criteri vengono aggregati deterministicamente in punteggi interpretabili per le varie componenti e in un riepilogo globale della verificabilità. Valutiamo Paper-snitch confrontandolo con la valutazione umana su un campione di articoli MICCAI e analizziamo considerazioni pratiche di impiego (deployment), tra cui il costo per articolo, il caching e l'osservabilità. Infine, discutiamo le limitazioni principali — in particolare la recall incompleta in contesti di recupero circoscritto (bounded retrieval), la suscettibilità a testi scritti in modo strategico, nonché il non-determinismo e la deriva (drift) dei componenti basati su LLM — e delineiamo le direzioni future per il rafforzamento della robustezza e per una validazione incentrata sul revisore.

Reproducibility policies aim to make medical-imaging research “checkable” at review time, yet many submissions still ship artifacts that are missing, incomplete, or not practically verifiable under peer-review constraints. In a longitudinal analysis of 3,722 MICCAI papers, the fraction linking code increases from 51.8% to 72.5%, but ~13% of linked repositories are inaccessible or empty, and many others lack the concrete information needed to audit claims without executing untrusted code. This thesis introduces Paper-snitch, a reviewer-facing decision-support tool for evidence-based reproducibility screening. Paper-snitch parses conference metadata and PDFs, resolves and sanity-checks linked repositories, and applies a policy-aware checklist aligned with MICCAI-style guidance. Rather than attempting full reproduction, it performs bounded, inspectable checks (e.g., artifact presence, documentation completeness, environment specification, and claim-to-command traceability) and produces an auditable report that links each criterion outcome to concrete evidence excerpts and repository artifacts. Criterion outcomes are aggregated deterministically into interpretable component scores and a global verifiability summary. We evaluate Paper-snitch against human assessment on a sample of MICCAI papers and analyze practical deployment considerations, including per-paper cost, caching, and observability. Finally, we discuss key limitations—most notably incomplete recall under bounded retrieval, susceptibility to strategically written text, and the non-determinism and drift of LLM-backed components—and outline directions for robustness hardening and reviewer-centered validation.