Nieuw onderzoek: onderzoekers gebruiken grote taalmodellen om robots te helpen navigeren

Een recent wetenschappelijk onderzoek toont aan dat het gebruik van grote taalmodellen robots beter kan laten navigeren door taal- en visuele informatie effectief te combineren.

Leestijd: 2 minuten

Door Jan Vaart

- 21 juni 2024 om 13:39 in

Wetenschap

Robot met kaart en scherm met tekstprompts

AmsterdamWetenschappers ontdekken nieuwe manieren om de navigatie van robots te verbeteren. Ze maken gebruik van grote taalmodellen om aanwijzingen en visuele data te combineren. Hierdoor kunnen robots taken sneller voltooien. Zo bereiken ze dit.

Ze zetten visuele weergaven om in tekstbeschrijvingen.
Een groot taalmodel gebruikt deze beschrijvingen.
Het model voorspelt de acties van de robot op basis van de beschrijvingen.

Traditionele methoden vereisen veel machine learning-modellen die een grote hoeveelheid visuele gegevens nodig hebben om getraind te worden. Het verzamelen van deze gegevens is echter moeilijk. MIT en het MIT-IBM Watson AI Lab hebben een nieuwe oplossing hiervoor gevonden.

Ze gebruiken woorden in plaats van afbeeldingen om de robot zijn omgeving te laten begrijpen. Deze methode genereert tekstbeschrijvingen van wat de robot waarneemt. Het uitgebreide taalmodel gebruikt vervolgens deze beschrijvingen om de volgende stappen van de robot te bepalen.

Deze methode biedt vele voordelen. Tekstgegevens verbruiken minder rekenkracht dan beeldgegevens. Dit maakt het eenvoudiger om nep-trainingsdata te creëren. Zo hebben ze bijvoorbeeld 10.000 nep-paden gegenereerd uit slechts 10 echte.

Het gebruik van taal helpt een veelvoorkomend probleem op te lossen. Gesimuleerde omgevingen komen vaak niet overeen met de echte wereld, waardoor het voor robots die in simulaties zijn getraind, lastig is om goed te functioneren in de realiteit. Maar taalkundige beschrijvingen werken goed in zowel gesimuleerde als echte omgevingen.

De tekstgebaseerde methode is makkelijker te begrijpen voor mensen. Wanneer de robot een fout maakt, kunnen onderzoekers zien wat er mis ging. Ze kunnen controleren of de informatie duidelijk genoeg was.

Uitdagingen bij start biomaterialenbedrijf: onverwachte hindernissen

Er zijn enkele nadelen. Deze methode kan details missen die visuele informatie biedt, zoals diepte. Maar door taalgebaseerde informatie met visuele data te combineren, kan de navigatie verbeteren.

Onderzoekers zijn enthousiast om taal te gebruiken om belangrijke informatie vast te leggen die visuele kenmerken alleen niet kunnen bieden. Ze willen dit in de toekomst verder bestuderen en streven ernaar om betere ondertitelingshulpmiddelen voor navigatie te ontwikkelen, waarvan ze denken dat ze de resultaten kunnen verbeteren.

Ze onderzoeken ook hoe het begrip van ruimte kan helpen bij taal-gebaseerde navigatie. Dit onderzoek wordt deels gefinancierd door het MIT-IBM Watson AI Lab.

Deze methode kan robots helpen beter te bewegen. Taalopdrachten gebruiken zou robots mogelijk flexibeler maken. Ze zouden verschillende taken kunnen uitvoeren en in uiteenlopende omgevingen kunnen werken zonder aanpassingen nodig te hebben. Zolang de gegevens in woorden omgezet kunnen worden, kan hetzelfde model worden gebruikt. Dit maakt de methode zeer flexibel.

Grote taalmodellen kunnen de robotnavigatie aanzienlijk verbeteren. Ze bieden vele voordelen en zouden in de toekomst wel eens alomtegenwoordig kunnen worden.

De studie is hier gepubliceerd:

http://dx.doi.org/10.48550/arXiv.2310.07889

en de officiële citatie - inclusief auteurs en tijdschrift - is

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889

Wetenschap: Laatste nieuws