RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models

I recenti progressi dei Large Language Models (LLMs) hanno stravolto numerosi settori, evolvendosi da modelli specializzati nella generazione di testo a strumenti general-purpose capaci di ragionare. La loro influenza pervasiva nella vita odierna rimarca un significativo cambio di traiettoria dell'innovazione tecnologica, definendo nuovi standard nella collaborazione tra uomo e macchina. Nonostante tali capacità, i Large Language Models sono ancora principalmente utilizzati come strumenti di conversazione, che richiedono la compilazione di un prompt con una richiesta ben precisa e producono in output una risposta generata token per token. Allo stesso tempo, la ricerca scientifica si sta rapidamente muovendo verso un nuovo paradigma: l'Agentic AI; l'obiettivo è quello di equipaggiare i Large Language Models e altri modelli di AI con abilità di pianificazione, utilizzo di tool esterni e collaborazione con altri modelli, allo scopo di assolvere a compiti sfaccettati e composti da più fasi, senza la necessità di un intervento umano costante. In tale contesto, questa tesi esamina le capacità dei Multimodal Large Language Models (MLLMs) di usare tool esterni al fine di affrontare task multimodali complessi. Le soluzioni esistenti sono generalmente limitate a input testuali e faticano a comprendere istruzioni multimodali. Esse tendono anche a funzionare solamente in impostazioni sperimentali \textit{closed-world}, ovvero non sono in grado di generalizzare a tool non osservati durante la fase di training. Questi problemi li rendono significativamente meno utili per applicazioni del mondo reale. Il framework sviluppato, RaTA-Tool, converte input e tool multimodali in descrizioni strutturate, e trova il tool migliore per un task comparando quanto la richiesta dell'utente corrisponda alla descrizione di ciascun tool. Inoltre, si propone un dataset per l'utilizzo di tool multimodali in un setting \textit{open-world}, che contiene descrizioni strutturate di tool generate a partire dalle model card di HuggingFace.

Recent advancements in Large Language Models (LLMs) have revolutionized numerous domains, evolving from specialized text generators into general-purpose reasoning engines. Their pervasive influence on contemporary life highlights a significant shift in the trajectory of technological innovation, establishing a new standard for human-machine collaboration. Despite these abilities, LLMs are still mainly used as conversational instruments, prompting requests and waiting for a token by token generated response. Meanwhile, research is quickly moving towards a new paradigm: Agentic AI. The goal is to give LLMs and other AI models the ability to plan, use external tools and collaborate with other models, in order to accomplish multi-step multifaceted tasks without the need of constant human intervention. Within this framework, this thesis examines how Multimodal Large Language Models (MLLMs) use external tools to tackle complex multimodal tasks. Current solutions are usually limited to text-only inputs and struggle to understand multimodal instructions. They also tend to work only in closed-world settings, meaning they are not able to generalize to new tools not seen during training. These issues make them much less useful for real-world applications. The framework developed, RaTA-Tool, turns multimodal input and tools into structured descriptions, and finds the best tool for a task by comparing how well the user's request matches each tool's description. Furthermore, a custom dataset for open-world multimodal tool use is proposed, which contains structured tool descriptions derived from Hugging Face model cards.