Depth Anything è una soluzione estremamente pratica per la stima robusta della profondità monoculare. Per stima della profondità si intende una tecnica di visione artificiale utilizzata per determinare la distanza degli oggetti in una scena dalla telecamera. Questa tesi indaga l'accelerazione del modello di stima della profondità Depth Anything V2 su un'unità di elaborazione per il deep learning (DPU) AMD utilizzando la piattaforma di sviluppo Vitis AI. Sfruttando la co-progettazione hardware-software, l'ottimizzazione consapevole della quantizzazione e la compilazione, la ricerca mira a migliorare significativamente le prestazioni di inferenza mantenendo un'elevata precisione di stima. I risultati dimostrano che è possibile ottenere un'implementazione efficiente di modelli di profondità basati su transformer su acceleratori FPGA edge-oriented attraverso un'attenta ottimizzazione e messa a punto. L'inferenza del nostro modello raggiunge un'accelerazione di 108,7 volte sull'acceleratore FPGA rispetto alle CPU embedded.
Depth Anything is a highly practical solution for robust monocular depth estimation. By depth estimation we mean a computer vision technique used to determine the distance of objects in a scene from the camera. This thesis investigates the acceleration of the Depth Anything V2 depth estimation model on an AMD Deep Learning Processing Unit (DPU) using the Vitis AI development platform. By leveraging hardware–software co design, quantization aware optimization, and compilation, the research aims to significantly improve inference performance while maintaining high estimation accuracy. The findings demonstrate that efficient deployment of transformer based depth models on edge oriented FPGA accelerators is achievable through careful optimization and tuning. Our model inference reaches a speed-up of 108.7x on FPGA accelerator when compared to embedded CPUs
Inference Acceleration of the Depth Anything V2 Model through AMD Vitis AI Platform
KAMGAING MOYO, FABRICE
2024/2025
Abstract
Depth Anything è una soluzione estremamente pratica per la stima robusta della profondità monoculare. Per stima della profondità si intende una tecnica di visione artificiale utilizzata per determinare la distanza degli oggetti in una scena dalla telecamera. Questa tesi indaga l'accelerazione del modello di stima della profondità Depth Anything V2 su un'unità di elaborazione per il deep learning (DPU) AMD utilizzando la piattaforma di sviluppo Vitis AI. Sfruttando la co-progettazione hardware-software, l'ottimizzazione consapevole della quantizzazione e la compilazione, la ricerca mira a migliorare significativamente le prestazioni di inferenza mantenendo un'elevata precisione di stima. I risultati dimostrano che è possibile ottenere un'implementazione efficiente di modelli di profondità basati su transformer su acceleratori FPGA edge-oriented attraverso un'attenta ottimizzazione e messa a punto. L'inferenza del nostro modello raggiunge un'accelerazione di 108,7 volte sull'acceleratore FPGA rispetto alle CPU embedded.| File | Dimensione | Formato | |
|---|---|---|---|
|
KamgaingMoyo.Fabrice.pdf
accesso aperto
Dimensione
2.12 MB
Formato
Adobe PDF
|
2.12 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/5454