Nuovo studio: i ricercatori usano grandi modelli linguistici per aiutare i robot a navigare
RomeGli scienziati stanno scoprendo nuovi metodi per migliorare la navigazione dei robot. Utilizzano grandi modelli linguistici per combinare indicazioni e dati visivi. Questo permette ai robot di completare i compiti in modo più veloce. Ecco come ci riescono.
- Traducono le rappresentazioni visive in didascalie testuali.
- Un grande modello linguistico utilizza queste didascalie.
- Il modello prevede le azioni del robot basandosi sulle didascalie.
I metodi tradizionali richiedono molti modelli di machine learning, che necessitano di una grande quantità di dati visivi per l'addestramento. Questi dati sono difficili da raccogliere. MIT e MIT-IBM Watson AI Lab hanno trovato una nuova soluzione.
Utilizzano parole al posto di immagini per aiutare il robot a comprendere l'ambiente circostante. Questo metodo genera descrizioni testuali di ciò che il robot osserva. In seguito, il grande modello linguistico impiega queste descrizioni per stabilire le prossime azioni del robot.
Questo metodo presenta numerosi vantaggi. I dati testuali richiedono meno risorse computazionali rispetto ai dati visivi. Ciò facilita la generazione di dati di addestramento falsi. Per esempio, hanno creato 10.000 percorsi fittizi partendo da soli 10 reali.
Utilizzare il linguaggio aiuta a risolvere un problema comune. Gli ambienti simulati spesso non sono simili al mondo reale, il che rende difficile per i robot addestrati in simulazioni operare efficacemente nella vita reale. Tuttavia, le descrizioni linguistiche funzionano bene sia in ambienti simulati sia in quelli reali.
Il metodo basato su testo è più facile da comprendere per le persone. Quando il robot commette un errore, i ricercatori possono individuare cosa è andato storto. Possono verificare se le informazioni erano abbastanza chiare.
Ci sono alcuni svantaggi. Questo metodo potrebbe perdere dettagli che l'informazione visiva fornisce, come la profondità. Tuttavia, l'uso di informazioni basate sul linguaggio insieme ai dati visivi può migliorare la navigazione.
I ricercatori sono entusiasti di utilizzare il linguaggio per catturare informazioni importanti che le sole caratteristiche visive non possono fornire. Hanno intenzione di approfondire questo studio in futuro e desiderano anche creare strumenti di didascalia migliori per la navigazione, ritenendo che ciò potrebbe migliorare i risultati.
Stanno anche esaminando come comprendere lo spazio possa facilitare la navigazione tramite l'uso del linguaggio. Questo studio è finanziato in parte dal MIT-IBM Watson AI Lab.
Questo metodo potrebbe migliorare la mobilità dei robot. Comandi linguistici potrebbero rendere i robot più adattabili. Essi sarebbero in grado di eseguire compiti diversi e lavorare in ambienti vari senza necessità di modifiche. Finché i dati possono essere convertiti in parole, lo stesso modello può essere utilizzato. Ciò rende il metodo estremamente flessibile.
I modelli di linguaggio avanzati possono migliorare significativamente la navigazione dei robot. Offrono numerosi vantaggi e potrebbero diventare diffusi in futuro.
Lo studio è pubblicato qui:
http://dx.doi.org/10.48550/arXiv.2310.07889e la sua citazione ufficiale - inclusi autori e rivista - è
Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889Condividi questo articolo