Ny studie: forskare använder stora språkmodeller för att förbättra robotars navigationsförmåga med språk och bild.

Lästid: 2 minuter
Av Jamie Olivos
- i
Robot som använder karta och skärm med textmeddelanden

StockholmForskare utvecklar nya metoder för att förbättra robotarnas navigering. De använder stora språkmodeller för att kombinera riktningar och visuella data. Detta gör att robotar kan utföra uppgifter snabbare. Så här går de till väga.

  • De omvandlar visuella representationer till textbeskrivningar.
  • En stor språkmodell använder dessa beskrivningar.
  • Modellen förutspår robotens handlingar baserat på beskrivningarna.

Traditionella metoder behöver många maskininlärningsmodeller, vilka kräver en stor mäng. visuell data att träna. Att samla in denna data är svårt. MIT och MIT-IBM Watson AI Lab har en ny lösning.

De använder ord istället för bilder för att hjälpa roboten att förstå dess omgivning. Denna metod skapar textbeskrivningar av vad roboten ser. Den stora språkmodellen använder sedan dessa beskrivningar för att bestämma robotens nästa handlingar.

Denna metod har många fördelar. Textdata kräver mindre datorkraft jämfört med bilddata. Detta underlättar skapandet av falska träningsdata. Till exempel skapade de 10 000 falska vägar från endast 10 verkliga.

Att använda språk kan lösa ett vanligt problem. Simulerade miljöer skiljer sig ofta från verkligheten, vilket gör det svårt för robotar som har tränats i simuleringar att prestera bra i verkliga situationer. Däremot fungerar språkbeskrivningar bra både i simulerade och verkliga miljöer.

Den textbaserade metoden är enklare för människor att förstå. När roboten gör ett misstag kan forskarna se vad som gick fel. De kan kontrollera om informationen var tydlig nog.

Det finns några nackdelar. Denna metod kan missa detaljer som visuell information ger, såsom djup. Men att kombinera språkbaserad information med visuell data kan förbättra navigeringen.

Forskare är ivriga över att använda språket för att fånga viktig information som inte kan erhållas enbart via visuella egenskaper. De planerar att undersöka detta vidare i framtiden och vill dessutom utveckla bättre verktyg för undertextning för navigering, vilket de tror kan förbättra resultaten.

De undersöker också hur förståelse för rymden kan förbättra språkbaserad navigering. Studien finansieras delvis av MIT-IBM Watson AI Lab.

Denna metod kan förbättra robotars rörelseförmåga. Att använda språkliga kommandon kan göra robotarna mer anpassningsbara. De skulle kunna utföra olika uppgifter och arbeta i olika miljöer utan att behöva ändras. Så länge data kan omvandlas till ord, kan samma modell användas. Detta gör metoden mycket flexibel.

Stora språkmodeller kan avsevärt förbättra robotars navigeringsförmåga. De erbjuder många fördelar och kan bli vanliga i framtiden.

Studien publiceras här:

http://dx.doi.org/10.48550/arXiv.2310.07889

och dess officiella citering - inklusive författare och tidskrift - är

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Vetenskap: Senaste nytt
Läs nästa:

Dela den här artikeln

Kommentarer (0)

Posta en kommentar
NewsWorld

NewsWorld.app är en gratis premium nyhetssida. Vi tillhandahåller oberoende och högkvalitativa nyheter utan att ta betalt per artikel och utan en prenumerationsmodell. NewsWorld anser att allmänna, affärs-, ekonomiska, tekniska och underhållningsnyheter bör vara tillgängliga på en hög nivå gratis. Dessutom är NewsWorld otroligt snabb och använder avancerad teknik för att presentera nyhetsartiklar i ett mycket läsbart och attraktivt format för konsumenten.


© 2024 NewsWorld™. Alla rättigheter reserverade.