Nowe badanie: naukowcy używają dużych modeli językowych do wspomagania nawigacji robotów

Nowe badania naukowe wykazują, że wykorzystanie dużych modeli językowych może poprawić zdolności nawigacyjne robotów poprzez skuteczne łączenie informacji językowych i wizualnych.

Czas czytania: 2 minut

Przez Jamie Olivos

- 21 czerwca 2024 o 13:39 w

Nauka

Robot korzystający z mapy i ekranu z tekstowymi podpowiedziami.

WarsawNaukowcy odkrywają nowe sposoby na usprawnienie nawigacji robotów. Wykorzystują duże modele językowe do integracji wskazówek i danych wizualnych. Dzięki temu roboty mogą szybciej realizować zadania. Oto, jak to osiągają.

Przekształcają wizualizacje w opisy tekstowe.
Model językowy korzysta z tych opisów.
Model przewiduje działania robota na podstawie opisów.

Tradycyjne metody wymagają wielu modeli uczenia maszynowego, które potrzebują dużej ilości danych wizualnych do trenowania. Zdobycie takich danych jest trudne. MIT oraz MIT-IBM Watson AI Lab opracowali nowe rozwiązanie tego problemu.

Zamiast obrazów korzystają ze słów, aby pomóc robotowi zrozumieć otoczenie. Metoda ta polega na tworzeniu tekstowych opisów tego, co widzi robot. Następnie duży model językowy używa tych opisów do określenia kolejnych działań robota.

Ta metoda ma wiele zalet. Dane tekstowe wymagają mniej mocy obliczeniowej niż dane obrazowe. Ułatwia to tworzenie fałszywych danych treningowych. Na przykład, udało się stworzyć 10 000 fałszywych ścieżek, opierając się tylko na 10 prawdziwych.

Wykorzystanie języka pomaga rozwiązać powszechny problem. Środowiska symulacyjne często różnią się od rzeczywistego świata, co sprawia, że robotom szkolonym w symulacjach trudno jest działać efektywnie w rzeczywistości. Jednak opisy językowe są skuteczne zarówno w środowiskach symulacyjnych, jak i rzeczywistych.

Metoda oparta na tekście jest łatwiejsza do zrozumienia dla ludzi. Gdy robot popełni błąd, badacze mogą zidentyfikować, co poszło nie tak. Mogą sprawdzić, czy informacje były wystarczająco jasne.

Zobacz również:

Słonie morskie wygrzewające się na słonecznej plaży.

Wczoraj · 23:18

Powrót słoni morskich: ze skraju wymarcia do tysiąca

Istnieją pewne wady. Ta metoda może nie wychwycić szczegółów, które dostarcza informacja wizualna, takich jak głębia. Jednakże połączenie informacji językowych z danymi wizualnymi może poprawić nawigację.

Badacze z entuzjazmem patrzą na wykorzystanie języka do uchwycenia ważnych informacji, których same cechy wizualne nie są w stanie dostarczyć. Zamierzają zgłębiać ten temat w przyszłości i pragną również opracować lepsze narzędzia do tworzenia opisów dla nawigacji, które ich zdaniem mogłyby poprawić wyniki.

Badane jest, w jaki sposób zrozumienie przestrzeni może wspierać nawigację za pomocą języka. Badania te są częściowo finansowane przez MIT-IBM Watson AI Lab.

Ta metoda może poprawić zdolność poruszania się robotów. Wykorzystanie poleceń językowych może sprawić, że roboty staną się bardziej elastyczne. Mogą wykonywać różne zadania i pracować w różnych środowiskach bez potrzeby modyfikacji. Dopóki dane można przekształcić w słowa, można używać tego samego modelu. To czyni tę metodę bardzo elastyczną.

Modele językowe o dużej skali mogą znacznie usprawnić nawigację robotów. Zapewniają wiele korzyści i mogą stać się powszechne w przyszłości.

Badanie jest publikowane tutaj:

http://dx.doi.org/10.48550/arXiv.2310.07889

i jego oficjalne cytowanie - w tym autorzy i czasopismo - to

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889

Nauka: Najnowsze wiadomości

Wczoraj · 23:18