Inference Acceleration of the Depth Anything V2 Model through AMD Vitis AI Platform

UNITesi

Depth Anything è una soluzione estremamente pratica per la stima robusta della profondità monoculare. Per stima della profondità si intende una tecnica di visione artificiale utilizzata per determinare la distanza degli oggetti in una scena dalla telecamera. Questa tesi indaga l'accelerazione del modello di stima della profondità Depth Anything V2 su un'unità di elaborazione per il deep learning (DPU) AMD utilizzando la piattaforma di sviluppo Vitis AI. Sfruttando la co-progettazione hardware-software, l'ottimizzazione consapevole della quantizzazione e la compilazione, la ricerca mira a migliorare significativamente le prestazioni di inferenza mantenendo un'elevata precisione di stima. I risultati dimostrano che è possibile ottenere un'implementazione efficiente di modelli di profondità basati su transformer su acceleratori FPGA edge-oriented attraverso un'attenta ottimizzazione e messa a punto. L'inferenza del nostro modello raggiunge un'accelerazione di 108,7 volte sull'acceleratore FPGA rispetto alle CPU embedded.

Depth Anything is a highly practical solution for robust monocular depth estimation. By depth estimation we mean a computer vision technique used to determine the distance of objects in a scene from the camera. This thesis investigates the acceleration of the Depth Anything V2 depth estimation model on an AMD Deep Learning Processing Unit (DPU) using the Vitis AI development platform. By leveraging hardware–software co design, quantization aware optimization, and compilation, the research aims to significantly improve inference performance while maintaining high estimation accuracy. The findings demonstrate that efficient deployment of transformer based depth models on edge oriented FPGA accelerators is achievable through careful optimization and tuning. Our model inference reaches a speed-up of 108.7x on FPGA accelerator when compared to embedded CPUs

Inference Acceleration of the Depth Anything V2 Model through AMD Vitis AI Platform

KAMGAING MOYO, FABRICE

2024/2025

Abstract

Depth Anything è una soluzione estremamente pratica per la stima robusta della profondità monoculare. Per stima della profondità si intende una tecnica di visione artificiale utilizzata per determinare la distanza degli oggetti in una scena dalla telecamera. Questa tesi indaga l'accelerazione del modello di stima della profondità Depth Anything V2 su un'unità di elaborazione per il deep learning (DPU) AMD utilizzando la piattaforma di sviluppo Vitis AI. Sfruttando la co-progettazione hardware-software, l'ottimizzazione consapevole della quantizzazione e la compilazione, la ricerca mira a migliorare significativamente le prestazioni di inferenza mantenendo un'elevata precisione di stima. I risultati dimostrano che è possibile ottenere un'implementazione efficiente di modelli di profondità basati su transformer su acceleratori FPGA edge-oriented attraverso un'attenta ottimizzazione e messa a punto. L'inferenza del nostro modello raggiunge un'accelerazione di 108,7 volte sull'acceleratore FPGA rispetto alle CPU embedded.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria "Enzo Ferrari"
			
	Corso di studio
	
				Ingegneria informatica
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Inference Acceleration of the Depth Anything V2 Model through AMD Vitis AI Platform
			
	Abstract in italiano
	
				Depth Anything is a highly practical solution for robust monocular depth estimation. By depth estimation we mean a computer vision technique used to determine the distance of objects in a scene from the camera. This thesis investigates the acceleration of the Depth Anything V2 depth estimation model on an AMD Deep Learning Processing Unit (DPU) using the Vitis AI development platform. By leveraging hardware–software co design, quantization aware optimization, and compilation, the research aims to significantly improve inference performance while maintaining high estimation accuracy. The findings demonstrate that efficient deployment of transformer based depth models on edge oriented FPGA accelerators is achievable through careful optimization and tuning. Our model inference reaches a speed-up of 108.7x on FPGA accelerator when compared to embedded CPUs
			
	Parola chiave
	
				FPGA
VITIS AI
Depth Anything V2
Inference
Acceleration
			
	Relatore
	
				BURGIO, PAOLO
			
	Controrelatore
	
				CAPOTONDI, ALESSANDRO
BRILLI, GIANLUCA
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
KamgaingMoyo.Fabrice.pdf accesso aperto Dimensione 2.12 MB Formato Adobe PDF Visualizza/Apri	2.12 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/5454