Nuovo studio: i ricercatori usano grandi modelli linguistici per aiutare i robot a navigare

Tempo di lettura: 2 minuti
Di Giovanni Dosa
- in
Robot che utilizza mappa e schermo con messaggi di testo

RomeGli scienziati stanno scoprendo nuovi metodi per migliorare la navigazione dei robot. Utilizzano grandi modelli linguistici per combinare indicazioni e dati visivi. Questo permette ai robot di completare i compiti in modo più veloce. Ecco come ci riescono.

  • Traducono le rappresentazioni visive in didascalie testuali.
  • Un grande modello linguistico utilizza queste didascalie.
  • Il modello prevede le azioni del robot basandosi sulle didascalie.

I metodi tradizionali richiedono molti modelli di machine learning, che necessitano di una grande quantità di dati visivi per l'addestramento. Questi dati sono difficili da raccogliere. MIT e MIT-IBM Watson AI Lab hanno trovato una nuova soluzione.

Utilizzano parole al posto di immagini per aiutare il robot a comprendere l'ambiente circostante. Questo metodo genera descrizioni testuali di ciò che il robot osserva. In seguito, il grande modello linguistico impiega queste descrizioni per stabilire le prossime azioni del robot.

Questo metodo presenta numerosi vantaggi. I dati testuali richiedono meno risorse computazionali rispetto ai dati visivi. Ciò facilita la generazione di dati di addestramento falsi. Per esempio, hanno creato 10.000 percorsi fittizi partendo da soli 10 reali.

Utilizzare il linguaggio aiuta a risolvere un problema comune. Gli ambienti simulati spesso non sono simili al mondo reale, il che rende difficile per i robot addestrati in simulazioni operare efficacemente nella vita reale. Tuttavia, le descrizioni linguistiche funzionano bene sia in ambienti simulati sia in quelli reali.

Il metodo basato su testo è più facile da comprendere per le persone. Quando il robot commette un errore, i ricercatori possono individuare cosa è andato storto. Possono verificare se le informazioni erano abbastanza chiare.

Ci sono alcuni svantaggi. Questo metodo potrebbe perdere dettagli che l'informazione visiva fornisce, come la profondità. Tuttavia, l'uso di informazioni basate sul linguaggio insieme ai dati visivi può migliorare la navigazione.

I ricercatori sono entusiasti di utilizzare il linguaggio per catturare informazioni importanti che le sole caratteristiche visive non possono fornire. Hanno intenzione di approfondire questo studio in futuro e desiderano anche creare strumenti di didascalia migliori per la navigazione, ritenendo che ciò potrebbe migliorare i risultati.

Stanno anche esaminando come comprendere lo spazio possa facilitare la navigazione tramite l'uso del linguaggio. Questo studio è finanziato in parte dal MIT-IBM Watson AI Lab.

Questo metodo potrebbe migliorare la mobilità dei robot. Comandi linguistici potrebbero rendere i robot più adattabili. Essi sarebbero in grado di eseguire compiti diversi e lavorare in ambienti vari senza necessità di modifiche. Finché i dati possono essere convertiti in parole, lo stesso modello può essere utilizzato. Ciò rende il metodo estremamente flessibile.

I modelli di linguaggio avanzati possono migliorare significativamente la navigazione dei robot. Offrono numerosi vantaggi e potrebbero diventare diffusi in futuro.

Lo studio è pubblicato qui:

http://dx.doi.org/10.48550/arXiv.2310.07889

e la sua citazione ufficiale - inclusi autori e rivista - è

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Scienza: Ultime notizie
Leggi di più:

Condividi questo articolo

Commenti (0)

Pubblica un commento
NewsWorld

NewsWorld.app è un sito di notizie premium gratuito. Forniamo notizie indipendenti e di alta qualità senza addebitare per articolo e senza un modello di abbonamento. NewsWorld ritiene che le notizie generali, di business, economiche, tecnologiche e di intrattenimento dovrebbero essere accessibili a un alto livello gratuitamente. Inoltre, NewsWorld è incredibilmente veloce e utilizza tecnologie avanzate per presentare articoli di notizie in un formato altamente leggibile e attraente per il consumatore.


© 2024 NewsWorld™. Tutti i diritti riservati.