Il Multiple Object Tracking (MOT) è un compito complesso della visione artificiale che consiste nell’associare e seguire più oggetti all’interno di una sequenza video. Lo sviluppo di sistemi MOT accurati e affidabili richiede grandi quantità di dati annotati, la cui raccolta può risultare costosa, dispendiosa in termini di tempo o, in alcuni casi, impraticabile. In questo contesto, i dati sintetici si sono affermati come una soluzione promettente, offrendo la possibilità di generare quantità virtualmente illimitate di dati con annotazioni di ground truth precise, a costi decisamente inferiori. Tuttavia, i modelli addestrati su dati sintetici tendono a mostrare un calo di prestazioni quando vengono applicati a scenari reali, a causa delle differenze tra i due domini in termini di aspetto visivo, illuminazione, dinamiche di movimento e altri fattori. Questo problema, noto come \emph{synthetic-to-real domain gap}, rappresenta una sfida per l’impiego pratico di sistemi MOT addestrati in ambienti virtuali. L’obiettivo di questa tesi è analizzare e quantificare l’impatto del domain gap sulle prestazioni di diversi tracker multi-oggetto all’avanguardia, basati su architetture di tipo attention-based e detection-based. L’analisi mira a comprendere meglio come queste architetture si comportano in scenari cross-domain, valutandone la capacità di generalizzazione, la robustezza e la trasferibilità dai dati sintetici a quelli reali.

Multiple Object Tracking (MOT) is a challenging vision task that aims to associate multiple objects across video frames. The development of accurate and reliable MOT systems requires large volumes of annotated data, which can be expensive, time-consuming, or impractical to obtain. Synthetic data has emerged as a promising solution, offering potentially unlimited data generation with precise ground truth annotations at a fraction of the cost. However, models trained on synthetic data often suffer a drop in performance when applied to real-world scenarios, due to differences in appearance, lighting, motion, and other factors between the two domains. This issue, known as the \emph{synthetic-to-real domain gap}, poses a significant challenge for the deployment of MOT systems trained in virtual environments. This thesis aims to analyze and quantify the impact of the domain gap on the performance of several state-of-the-art attention-based and detection-based multiple object trackers, in order to better understand how different tracking architectures generalize across domains and evaluate their robustness and transferability in cross-domain settings.

Synthetic-to-Real Domain Gap in Multiple Object Tracking

MORANDI, FRANCESCA
2024/2025

Abstract

Il Multiple Object Tracking (MOT) è un compito complesso della visione artificiale che consiste nell’associare e seguire più oggetti all’interno di una sequenza video. Lo sviluppo di sistemi MOT accurati e affidabili richiede grandi quantità di dati annotati, la cui raccolta può risultare costosa, dispendiosa in termini di tempo o, in alcuni casi, impraticabile. In questo contesto, i dati sintetici si sono affermati come una soluzione promettente, offrendo la possibilità di generare quantità virtualmente illimitate di dati con annotazioni di ground truth precise, a costi decisamente inferiori. Tuttavia, i modelli addestrati su dati sintetici tendono a mostrare un calo di prestazioni quando vengono applicati a scenari reali, a causa delle differenze tra i due domini in termini di aspetto visivo, illuminazione, dinamiche di movimento e altri fattori. Questo problema, noto come \emph{synthetic-to-real domain gap}, rappresenta una sfida per l’impiego pratico di sistemi MOT addestrati in ambienti virtuali. L’obiettivo di questa tesi è analizzare e quantificare l’impatto del domain gap sulle prestazioni di diversi tracker multi-oggetto all’avanguardia, basati su architetture di tipo attention-based e detection-based. L’analisi mira a comprendere meglio come queste architetture si comportano in scenari cross-domain, valutandone la capacità di generalizzazione, la robustezza e la trasferibilità dai dati sintetici a quelli reali.
2024
Multiple Object Tracking (MOT) is a challenging vision task that aims to associate multiple objects across video frames. The development of accurate and reliable MOT systems requires large volumes of annotated data, which can be expensive, time-consuming, or impractical to obtain. Synthetic data has emerged as a promising solution, offering potentially unlimited data generation with precise ground truth annotations at a fraction of the cost. However, models trained on synthetic data often suffer a drop in performance when applied to real-world scenarios, due to differences in appearance, lighting, motion, and other factors between the two domains. This issue, known as the \emph{synthetic-to-real domain gap}, poses a significant challenge for the deployment of MOT systems trained in virtual environments. This thesis aims to analyze and quantify the impact of the domain gap on the performance of several state-of-the-art attention-based and detection-based multiple object trackers, in order to better understand how different tracking architectures generalize across domains and evaluate their robustness and transferability in cross-domain settings.
Object Tracking
Sim-to-Real Transfer
Synthetic Data
Domain Gap
Deep Learning
File in questo prodotto:
File Dimensione Formato  
Morandi.Francesca.pdf

accesso aperto

Dimensione 16.24 MB
Formato Adobe PDF
16.24 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3914