Questa tesi esplora RobotGPT, un’architettura robotica costruita su ROS 2, che combina abilità linguistiche e visione artificiale per la pallettizzazione delle scatole. Il cuore del progetto è il nodo di percezione chiamato vision_interface, che sfrutta YOLO-World per la rilevazione open-vocabulary (come “box”, “green box”) e una telecamera RGB-D fissa Asus Xtion Pro Live per stimare le pose 3D degli oggetti in modo metrico. La pipe- line acquisisce immagini e dati di profondità, esegue il rilevamento, calcola la distanza nella regione di interesse e ricostruisce i punti 3D utilizzando un modello pinhole, tra- sformandoli nel frame del robot attraverso la calibrazione intrinseca ed estrinseca con marcatori ArUco. L’architettura è modulare: i nodi vision_interface, behavior_executor e robot_interface comunicano tra loro tramite messaggi dedicati (VisionQuery/WorldState) e TF, permettendo di attivare la percezione “su richiesta” lungo il percorso linguag- gio→azione. Il compito di pallettizzazione è validato in modo end-to-end: le coordinate di partenza sono stimate dal sistema di visione, mentre le posizioni finali sono fornite manualmente dall’operatore. La valutazione sperimentale, condotta in condizioni reali- stiche con illuminazione variabile, occlusioni e superfici riflettenti, misura le prestazioni di rilevamento (mAP, precisione/richiamo, FPS) e l’accuratezza metrica (MAE, RMSE), accompagnata da un’analisi degli errori dovuti a calibrazione, profondità e trasformazio- ni. I risultati dimostrano che l’integrazione di LLM e visione RGB-D rende il sistema flessibile e riutilizzabile senza necessità di riaddestramento per nuove richieste lessicali, consentendo una pallettizzazione affidabile e tracciabile. La tesi affronta anche i limiti e le possibili estensioni: multi-camera, robustezza in condizioni avverse e miglioramento della collaborazione uomo-robot.
RobotGPT: Sistema di Visione Intelligente basato su YOLO-World e ROS 2 per la Pallettizzazione Robotica
POLI, GIORGIA
2024/2025
Abstract
Questa tesi esplora RobotGPT, un’architettura robotica costruita su ROS 2, che combina abilità linguistiche e visione artificiale per la pallettizzazione delle scatole. Il cuore del progetto è il nodo di percezione chiamato vision_interface, che sfrutta YOLO-World per la rilevazione open-vocabulary (come “box”, “green box”) e una telecamera RGB-D fissa Asus Xtion Pro Live per stimare le pose 3D degli oggetti in modo metrico. La pipe- line acquisisce immagini e dati di profondità, esegue il rilevamento, calcola la distanza nella regione di interesse e ricostruisce i punti 3D utilizzando un modello pinhole, tra- sformandoli nel frame del robot attraverso la calibrazione intrinseca ed estrinseca con marcatori ArUco. L’architettura è modulare: i nodi vision_interface, behavior_executor e robot_interface comunicano tra loro tramite messaggi dedicati (VisionQuery/WorldState) e TF, permettendo di attivare la percezione “su richiesta” lungo il percorso linguag- gio→azione. Il compito di pallettizzazione è validato in modo end-to-end: le coordinate di partenza sono stimate dal sistema di visione, mentre le posizioni finali sono fornite manualmente dall’operatore. La valutazione sperimentale, condotta in condizioni reali- stiche con illuminazione variabile, occlusioni e superfici riflettenti, misura le prestazioni di rilevamento (mAP, precisione/richiamo, FPS) e l’accuratezza metrica (MAE, RMSE), accompagnata da un’analisi degli errori dovuti a calibrazione, profondità e trasformazio- ni. I risultati dimostrano che l’integrazione di LLM e visione RGB-D rende il sistema flessibile e riutilizzabile senza necessità di riaddestramento per nuove richieste lessicali, consentendo una pallettizzazione affidabile e tracciabile. La tesi affronta anche i limiti e le possibili estensioni: multi-camera, robustezza in condizioni avverse e miglioramento della collaborazione uomo-robot.| File | Dimensione | Formato | |
|---|---|---|---|
|
Poli.Giorgia.pdf
accesso aperto
Dimensione
1.76 MB
Formato
Adobe PDF
|
1.76 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14251/4125