Nowe badanie: naukowcy używają dużych modeli językowych do wspomagania nawigacji robotów

Czas czytania: 2 minut
Przez Jamie Olivos
- w
Robot korzystający z mapy i ekranu z tekstowymi podpowiedziami.

WarsawNaukowcy odkrywają nowe sposoby na usprawnienie nawigacji robotów. Wykorzystują duże modele językowe do integracji wskazówek i danych wizualnych. Dzięki temu roboty mogą szybciej realizować zadania. Oto, jak to osiągają.

  • Przekształcają wizualizacje w opisy tekstowe.
  • Model językowy korzysta z tych opisów.
  • Model przewiduje działania robota na podstawie opisów.

Tradycyjne metody wymagają wielu modeli uczenia maszynowego, które potrzebują dużej ilości danych wizualnych do trenowania. Zdobycie takich danych jest trudne. MIT oraz MIT-IBM Watson AI Lab opracowali nowe rozwiązanie tego problemu.

Zamiast obrazów korzystają ze słów, aby pomóc robotowi zrozumieć otoczenie. Metoda ta polega na tworzeniu tekstowych opisów tego, co widzi robot. Następnie duży model językowy używa tych opisów do określenia kolejnych działań robota.

Ta metoda ma wiele zalet. Dane tekstowe wymagają mniej mocy obliczeniowej niż dane obrazowe. Ułatwia to tworzenie fałszywych danych treningowych. Na przykład, udało się stworzyć 10 000 fałszywych ścieżek, opierając się tylko na 10 prawdziwych.

Wykorzystanie języka pomaga rozwiązać powszechny problem. Środowiska symulacyjne często różnią się od rzeczywistego świata, co sprawia, że robotom szkolonym w symulacjach trudno jest działać efektywnie w rzeczywistości. Jednak opisy językowe są skuteczne zarówno w środowiskach symulacyjnych, jak i rzeczywistych.

Metoda oparta na tekście jest łatwiejsza do zrozumienia dla ludzi. Gdy robot popełni błąd, badacze mogą zidentyfikować, co poszło nie tak. Mogą sprawdzić, czy informacje były wystarczająco jasne.

Istnieją pewne wady. Ta metoda może nie wychwycić szczegółów, które dostarcza informacja wizualna, takich jak głębia. Jednakże połączenie informacji językowych z danymi wizualnymi może poprawić nawigację.

Badacze z entuzjazmem patrzą na wykorzystanie języka do uchwycenia ważnych informacji, których same cechy wizualne nie są w stanie dostarczyć. Zamierzają zgłębiać ten temat w przyszłości i pragną również opracować lepsze narzędzia do tworzenia opisów dla nawigacji, które ich zdaniem mogłyby poprawić wyniki.

Badane jest, w jaki sposób zrozumienie przestrzeni może wspierać nawigację za pomocą języka. Badania te są częściowo finansowane przez MIT-IBM Watson AI Lab.

Ta metoda może poprawić zdolność poruszania się robotów. Wykorzystanie poleceń językowych może sprawić, że roboty staną się bardziej elastyczne. Mogą wykonywać różne zadania i pracować w różnych środowiskach bez potrzeby modyfikacji. Dopóki dane można przekształcić w słowa, można używać tego samego modelu. To czyni tę metodę bardzo elastyczną.

Modele językowe o dużej skali mogą znacznie usprawnić nawigację robotów. Zapewniają wiele korzyści i mogą stać się powszechne w przyszłości.

Badanie jest publikowane tutaj:

http://dx.doi.org/10.48550/arXiv.2310.07889

i jego oficjalne cytowanie - w tym autorzy i czasopismo - to

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Nauka: Najnowsze wiadomości
Czytaj dalej:

Udostępnij ten artykuł

Komentarze (0)

Opublikuj komentarz