Ny studie: forskare använder stora språkmodeller för att förbättra robotars navigationsförmåga med språk och bild.
StockholmForskare utvecklar nya metoder för att förbättra robotarnas navigering. De använder stora språkmodeller för att kombinera riktningar och visuella data. Detta gör att robotar kan utföra uppgifter snabbare. Så här går de till väga.
- De omvandlar visuella representationer till textbeskrivningar.
- En stor språkmodell använder dessa beskrivningar.
- Modellen förutspår robotens handlingar baserat på beskrivningarna.
Traditionella metoder behöver många maskininlärningsmodeller, vilka kräver en stor mäng. visuell data att träna. Att samla in denna data är svårt. MIT och MIT-IBM Watson AI Lab har en ny lösning.
De använder ord istället för bilder för att hjälpa roboten att förstå dess omgivning. Denna metod skapar textbeskrivningar av vad roboten ser. Den stora språkmodellen använder sedan dessa beskrivningar för att bestämma robotens nästa handlingar.
Denna metod har många fördelar. Textdata kräver mindre datorkraft jämfört med bilddata. Detta underlättar skapandet av falska träningsdata. Till exempel skapade de 10 000 falska vägar från endast 10 verkliga.
Att använda språk kan lösa ett vanligt problem. Simulerade miljöer skiljer sig ofta från verkligheten, vilket gör det svårt för robotar som har tränats i simuleringar att prestera bra i verkliga situationer. Däremot fungerar språkbeskrivningar bra både i simulerade och verkliga miljöer.
Den textbaserade metoden är enklare för människor att förstå. När roboten gör ett misstag kan forskarna se vad som gick fel. De kan kontrollera om informationen var tydlig nog.
Det finns några nackdelar. Denna metod kan missa detaljer som visuell information ger, såsom djup. Men att kombinera språkbaserad information med visuell data kan förbättra navigeringen.
Forskare är ivriga över att använda språket för att fånga viktig information som inte kan erhållas enbart via visuella egenskaper. De planerar att undersöka detta vidare i framtiden och vill dessutom utveckla bättre verktyg för undertextning för navigering, vilket de tror kan förbättra resultaten.
De undersöker också hur förståelse för rymden kan förbättra språkbaserad navigering. Studien finansieras delvis av MIT-IBM Watson AI Lab.
Denna metod kan förbättra robotars rörelseförmåga. Att använda språkliga kommandon kan göra robotarna mer anpassningsbara. De skulle kunna utföra olika uppgifter och arbeta i olika miljöer utan att behöva ändras. Så länge data kan omvandlas till ord, kan samma modell användas. Detta gör metoden mycket flexibel.
Stora språkmodeller kan avsevärt förbättra robotars navigeringsförmåga. De erbjuder många fördelar och kan bli vanliga i framtiden.
Studien publiceras här:
http://dx.doi.org/10.48550/arXiv.2310.07889och dess officiella citering - inklusive författare och tidskrift - är
Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889Dela den här artikeln