Synthetic-to-Real Domain Gap in Multiple Object Tracking

UNITesi

Il Multiple Object Tracking (MOT) è un compito complesso della visione artificiale che consiste nell’associare e seguire più oggetti all’interno di una sequenza video. Lo sviluppo di sistemi MOT accurati e affidabili richiede grandi quantità di dati annotati, la cui raccolta può risultare costosa, dispendiosa in termini di tempo o, in alcuni casi, impraticabile. In questo contesto, i dati sintetici si sono affermati come una soluzione promettente, offrendo la possibilità di generare quantità virtualmente illimitate di dati con annotazioni di ground truth precise, a costi decisamente inferiori. Tuttavia, i modelli addestrati su dati sintetici tendono a mostrare un calo di prestazioni quando vengono applicati a scenari reali, a causa delle differenze tra i due domini in termini di aspetto visivo, illuminazione, dinamiche di movimento e altri fattori. Questo problema, noto come \emph{synthetic-to-real domain gap}, rappresenta una sfida per l’impiego pratico di sistemi MOT addestrati in ambienti virtuali. L’obiettivo di questa tesi è analizzare e quantificare l’impatto del domain gap sulle prestazioni di diversi tracker multi-oggetto all’avanguardia, basati su architetture di tipo attention-based e detection-based. L’analisi mira a comprendere meglio come queste architetture si comportano in scenari cross-domain, valutandone la capacità di generalizzazione, la robustezza e la trasferibilità dai dati sintetici a quelli reali.

Multiple Object Tracking (MOT) is a challenging vision task that aims to associate multiple objects across video frames. The development of accurate and reliable MOT systems requires large volumes of annotated data, which can be expensive, time-consuming, or impractical to obtain. Synthetic data has emerged as a promising solution, offering potentially unlimited data generation with precise ground truth annotations at a fraction of the cost. However, models trained on synthetic data often suffer a drop in performance when applied to real-world scenarios, due to differences in appearance, lighting, motion, and other factors between the two domains. This issue, known as the \emph{synthetic-to-real domain gap}, poses a significant challenge for the deployment of MOT systems trained in virtual environments. This thesis aims to analyze and quantify the impact of the domain gap on the performance of several state-of-the-art attention-based and detection-based multiple object trackers, in order to better understand how different tracking architectures generalize across domains and evaluate their robustness and transferability in cross-domain settings.

Synthetic-to-Real Domain Gap in Multiple Object Tracking

MORANDI, FRANCESCA

2024/2025

Abstract

Il Multiple Object Tracking (MOT) è un compito complesso della visione artificiale che consiste nell’associare e seguire più oggetti all’interno di una sequenza video. Lo sviluppo di sistemi MOT accurati e affidabili richiede grandi quantità di dati annotati, la cui raccolta può risultare costosa, dispendiosa in termini di tempo o, in alcuni casi, impraticabile. In questo contesto, i dati sintetici si sono affermati come una soluzione promettente, offrendo la possibilità di generare quantità virtualmente illimitate di dati con annotazioni di ground truth precise, a costi decisamente inferiori. Tuttavia, i modelli addestrati su dati sintetici tendono a mostrare un calo di prestazioni quando vengono applicati a scenari reali, a causa delle differenze tra i due domini in termini di aspetto visivo, illuminazione, dinamiche di movimento e altri fattori. Questo problema, noto come \emph{synthetic-to-real domain gap}, rappresenta una sfida per l’impiego pratico di sistemi MOT addestrati in ambienti virtuali. L’obiettivo di questa tesi è analizzare e quantificare l’impatto del domain gap sulle prestazioni di diversi tracker multi-oggetto all’avanguardia, basati su architetture di tipo attention-based e detection-based. L’analisi mira a comprendere meglio come queste architetture si comportano in scenari cross-domain, valutandone la capacità di generalizzazione, la robustezza e la trasferibilità dai dati sintetici a quelli reali.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Artificial intelligence engineering
			
	Anno Accademico
	
				2024
			
	Abstract in italiano
	
				Multiple Object Tracking (MOT) is a challenging vision task that aims to associate multiple objects across video frames. The development of accurate and reliable MOT systems requires large volumes of annotated data, which can be expensive, time-consuming, or impractical to obtain. Synthetic data has emerged as a promising solution, offering potentially unlimited data generation with precise ground truth annotations at a fraction of the cost.

However, models trained on synthetic data often suffer a drop in performance when applied to real-world scenarios, due to differences in appearance, lighting, motion, and other factors between the two domains. This issue, known as the \emph{synthetic-to-real domain gap}, poses a significant challenge for the deployment of MOT systems trained in virtual environments.

This thesis aims to analyze and quantify the impact of the domain gap on the performance of several state-of-the-art attention-based and detection-based multiple object trackers, in order to better understand how different tracking architectures generalize across domains and evaluate their robustness and transferability in cross-domain settings.
			
	Parola chiave
	
				Object Tracking
Sim-to-Real Transfer
Synthetic Data
Domain Gap
Deep Learning
			
	Relatore
	
				CALDERARA, SIMONE
			
	Controrelatore
	
				PORRELLO, ANGELO
MANCUSI, GIANLUCA
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Morandi.Francesca.pdf accesso aperto Dimensione 16.24 MB Formato Adobe PDF Visualizza/Apri	16.24 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/3914