Neue Studie: Forscher nutzen große Sprachmodelle, um Robotern bei der Navigation zu helfen

Lesezeit: 2 Minuten
Durch Ernst Müller
- in
Roboter mit Karte und Bildschirm mit Texteingabeaufforderungen.

BerlinWissenschaftler entdecken neue Methoden zur Verbesserung der Roboternavigation. Sie verwenden große Sprachmodelle, um Anweisungen mit visuellen Daten zu kombinieren. Dadurch können Roboter Aufgaben schneller erledigen. So erreichen sie es.

  • Sie verwandeln visuelle Darstellungen in Textbeschreibungen.
  • Ein großes Sprachmodell verwendet diese Beschreibungen.
  • Das Modell sagt die Aktionen des Roboters basierend auf den Beschreibungen voraus.

Traditionelle Methoden benötigen viele Machine-Learning-Modelle, die eine große Menge an visuellen Daten zum Training erfordern. Diese Daten sind jedoch schwer zu beschaffen. Das MIT und das MIT-IBM Watson AI Lab haben eine neue Lösung entwickelt.

Statt Bildern verwenden sie Wörter, um dem Roboter seine Umgebung verständlich zu machen. Diese Methode erstellt Textbeschreibungen dessen, was der Roboter sieht. Das große Sprachmodell nutzt dann diese Beschreibungen, um die nächsten Aktionen des Roboters zu bestimmen.

Diese Methode bietet zahlreiche Vorteile. Textdaten benötigen weniger Rechenleistung als Bilddaten. Dadurch lässt sich gefälschtes Trainingsmaterial leichter erzeugen. Zum Beispiel erstellten sie 10.000 künstliche Pfade aus nur 10 echten.

Der Einsatz von Sprache hilft, ein bekanntes Problem zu lösen. Simulierte Umgebungen unterscheiden sich oft erheblich von der realen Welt. Dadurch wird es schwierig für Roboter, die in Simulationen trainiert wurden, in der realen Welt effektiv zu arbeiten. Allerdings funktionieren sprachliche Beschreibungen sowohl in simulierten als auch in realen Umgebungen gut.

Die textbasierte Methode ist für Menschen leichter verständlich. Wenn der Roboter einen Fehler macht, können Forscher nachvollziehen, was schiefgelaufen ist. Sie können überprüfen, ob die Informationen klar genug waren.

Es gibt einige Nachteile. Diese Methode könnte Details übersehen, die visuelle Informationen liefern, wie zum Beispiel Tiefe. Doch durch die Kombination von sprachbasierten Informationen mit visuellen Daten kann die Navigation verbessert werden.

Forscher sind begeistert von der Nutzung von Sprache, um wichtige Informationen zu erfassen, die visuelle Merkmale allein nicht liefern können. Sie planen, dieses Thema in Zukunft weiter zu erforschen und möchten zudem bessere Werkzeuge zur Bildunterschriftenerstellung für die Navigation entwickeln, von denen sie glauben, dass sie die Ergebnisse verbessern könnten.

Sie untersuchen auch, wie das Verständnis von Raum zur Verbesserung der sprachbasierten Navigation beitragen kann. Diese Studie wird teilweise vom MIT-IBM Watson AI Lab finanziert.

Diese Methode könnte Robotern helfen, sich besser zu bewegen. Der Einsatz von Sprachbefehlen könnte Roboter anpassungsfähiger machen. Sie könnten verschiedene Aufgaben erledigen und in unterschiedlichen Umgebungen arbeiten, ohne Änderungen vorzunehmen. Solange die Daten in Worte umgewandelt werden können, kann dasselbe Modell verwendet werden. Das macht die Methode äußerst flexibel.

Große Sprachmodelle können die Roboternavigation erheblich verbessern. Sie bieten zahlreiche Vorteile und könnten in Zukunft weit verbreitet sein.

Die Studie wird hier veröffentlicht:

http://dx.doi.org/10.48550/arXiv.2310.07889

und seine offizielle Zitation - einschließlich Autoren und Zeitschrift - lautet

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Wissenschaft: Neueste Nachrichten
Weiterlesen:

Diesen Artikel teilen

Kommentare (0)

Kommentar veröffentlichen
NewsWorld

NewsWorld.app ist der kostenlose Premium-Nachrichtenseite in Deutschland. Wir bieten unabhängige und hochwertige Nachrichten, ohne pro Artikel zu berechnen und ohne ein Abonnementmodell. NewsWorld ist der Ansicht, dass allgemeine, geschäftliche, wirtschaftliche, technische und Unterhaltungsnachrichten auf hohem Niveau kostenlos zugänglich sein sollten. Darüber hinaus ist NewsWorld unglaublich schnell und verwendet fortschrittliche Technologie, um Nachrichtenartikel in einem äußerst lesbaren und attraktiven Format für den Verbraucher zu präsentieren.


© 2024 NewsWorld™. Alle Rechte vorbehalten.