RobotGPT: Sistema di Visione Intelligente basato su YOLO-World e ROS 2 per la Pallettizzazione Robotica

Questa tesi esplora RobotGPT, un’architettura robotica costruita su ROS 2, che combina abilità linguistiche e visione artificiale per la pallettizzazione delle scatole. Il cuore del progetto è il nodo di percezione chiamato vision_interface, che sfrutta YOLO-World per la rilevazione open-vocabulary (come “box”, “green box”) e una telecamera RGB-D fissa Asus Xtion Pro Live per stimare le pose 3D degli oggetti in modo metrico. La pipe- line acquisisce immagini e dati di profondità, esegue il rilevamento, calcola la distanza nella regione di interesse e ricostruisce i punti 3D utilizzando un modello pinhole, tra- sformandoli nel frame del robot attraverso la calibrazione intrinseca ed estrinseca con marcatori ArUco. L’architettura è modulare: i nodi vision_interface, behavior_executor e robot_interface comunicano tra loro tramite messaggi dedicati (VisionQuery/WorldState) e TF, permettendo di attivare la percezione “su richiesta” lungo il percorso linguag- gio→azione. Il compito di pallettizzazione è validato in modo end-to-end: le coordinate di partenza sono stimate dal sistema di visione, mentre le posizioni finali sono fornite manualmente dall’operatore. La valutazione sperimentale, condotta in condizioni reali- stiche con illuminazione variabile, occlusioni e superfici riflettenti, misura le prestazioni di rilevamento (mAP, precisione/richiamo, FPS) e l’accuratezza metrica (MAE, RMSE), accompagnata da un’analisi degli errori dovuti a calibrazione, profondità e trasformazio- ni. I risultati dimostrano che l’integrazione di LLM e visione RGB-D rende il sistema flessibile e riutilizzabile senza necessità di riaddestramento per nuove richieste lessicali, consentendo una pallettizzazione affidabile e tracciabile. La tesi affronta anche i limiti e le possibili estensioni: multi-camera, robustezza in condizioni avverse e miglioramento della collaborazione uomo-robot.

RobotGPT: Sistema di Visione Intelligente basato su YOLO-World e ROS 2 per la Pallettizzazione Robotica

POLI, GIORGIA

2024/2025

Abstract

Questa tesi esplora RobotGPT, un’architettura robotica costruita su ROS 2, che combina abilità linguistiche e visione artificiale per la pallettizzazione delle scatole. Il cuore del progetto è il nodo di percezione chiamato vision_interface, che sfrutta YOLO-World per la rilevazione open-vocabulary (come “box”, “green box”) e una telecamera RGB-D fissa Asus Xtion Pro Live per stimare le pose 3D degli oggetti in modo metrico. La pipe- line acquisisce immagini e dati di profondità, esegue il rilevamento, calcola la distanza nella regione di interesse e ricostruisce i punti 3D utilizzando un modello pinhole, tra- sformandoli nel frame del robot attraverso la calibrazione intrinseca ed estrinseca con marcatori ArUco. L’architettura è modulare: i nodi vision_interface, behavior_executor e robot_interface comunicano tra loro tramite messaggi dedicati (VisionQuery/WorldState) e TF, permettendo di attivare la percezione “su richiesta” lungo il percorso linguag- gio→azione. Il compito di pallettizzazione è validato in modo end-to-end: le coordinate di partenza sono stimate dal sistema di visione, mentre le posizioni finali sono fornite manualmente dall’operatore. La valutazione sperimentale, condotta in condizioni reali- stiche con illuminazione variabile, occlusioni e superfici riflettenti, misura le prestazioni di rilevamento (mAP, precisione/richiamo, FPS) e l’accuratezza metrica (MAE, RMSE), accompagnata da un’analisi degli errori dovuti a calibrazione, profondità e trasformazio- ni. I risultati dimostrano che l’integrazione di LLM e visione RGB-D rende il sistema flessibile e riutilizzabile senza necessità di riaddestramento per nuove richieste lessicali, consentendo una pallettizzazione affidabile e tracciabile. La tesi affronta anche i limiti e le possibili estensioni: multi-camera, robustezza in condizioni avverse e miglioramento della collaborazione uomo-robot.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento di Scienze e Metodi dell'Ingegneria
			
	Corso di studio
	
				Ingegneria gestionale
			
	Anno Accademico
	
				2024
			
	Parola chiave
	
				RobotGPT
robot
ai
yolo
ros2
			
	Relatore
	
				FANTUZZI, CESARE
			
	Controrelatore
	
				NINI, MATTEO
COSTI, SILVIA
			
	Appare nelle tipologie:
	
				Lauree Magistrali

File in questo prodotto:

File	Dimensione	Formato
Poli.Giorgia.pdf accesso aperto Dimensione 1.76 MB Formato Adobe PDF Visualizza/Apri	1.76 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14251/4125