Une nouvelle étude utilise des modèles de langage pour améliorer la navigation des robots

Temps de lecture: 2 minutes
Par Jean Rivière
- dans
Robot utilisant une carte et un écran avec des invites textuelles

ParisLes scientifiques découvrent de nouvelles techniques pour améliorer la navigation des robots. Ils utilisent de grands modèles linguistiques pour combiner les instructions et les données visuelles. Cela permet aux robots d'exécuter les tâches plus rapidement. Voici comment ils y parviennent.

  • Ils transforment les représentations visuelles en légendes textuelles.
  • Un grand modèle de langage utilise ces légendes.
  • Le modèle prédit les actions du robot en se basant sur les légendes.

Les méthodes traditionnelles nécessitent de nombreux modèles d'apprentissage automatique, qui demandent une grande quantité de données visuelles pour l'entraînement. Ces données sont difficiles à obtenir. Le MIT et le MIT-IBM Watson AI Lab proposent une nouvelle solution.

Ils emploient des mots au lieu d'images pour permettre au robot de comprendre son environnement. Cette méthode génère des descriptions textuelles de ce que le robot perçoit. Le grand modèle linguistique utilise ensuite ces descriptions pour définir les actions suivantes du robot.

Cette méthode présente de nombreux avantages. Les données textuelles consomment moins de puissance informatique que les données visuelles. Cela facilite la création de fausses données d'entraînement. Par exemple, ils ont produit 10 000 chemins fictifs à partir de seulement 10 chemins réels.

L'utilisation du langage aide à résoudre un problème courant. Les environnements simulés sont souvent très différents du monde réel, ce qui complique le travail des robots formés dans des simulations lorsqu'ils sont confrontés à la réalité. Cependant, les descriptions en langage naturel fonctionnent bien à la fois dans les environnements simulés et réels.

La méthode basée sur le texte est plus facile à comprendre pour les gens. Lorsqu'un robot fait une erreur, les chercheurs peuvent voir ce qui n'a pas fonctionné. Ils peuvent vérifier si les informations étaient suffisamment claires.

Il existe quelques inconvénients à cette méthode. Elle pourrait omettre des détails que l'information visuelle procure, comme la profondeur. Toutefois, combiner les données basées sur le langage avec les informations visuelles peut améliorer la navigation.

Les chercheurs sont ravis d’utiliser le langage pour saisir des informations cruciales que les seules caractéristiques visuelles ne peuvent pas fournir. Ils prévoient d’approfondir cette étude à l'avenir et souhaitent également développer de meilleurs outils de sous-titrage pour la navigation, estimant que cela pourrait améliorer les résultats.

Ils examinent également comment la compréhension de l'espace peut améliorer la navigation basée sur le langage. Cette étude est en partie financée par le MIT-IBM Watson AI Lab.

Cette méthode pourrait améliorer les déplacements des robots. L'utilisation de commandes linguistiques rendrait les robots plus adaptables. Ils seraient capables d'effectuer diverses tâches et de travailler dans différents environnements sans nécessiter de modifications. Tant que les données peuvent être transformées en mots, le même modèle peut être utilisé. Cela rend la méthode extrêmement flexible.

Les grands modèles de langage peuvent considérablement améliorer la navigation des robots. Ils offrent de nombreux avantages et pourraient devenir courants à l'avenir.

L'étude est publiée ici:

http://dx.doi.org/10.48550/arXiv.2310.07889

et sa citation officielle - y compris les auteurs et la revue - est

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Science: Dernières nouvelles
Lire la suite:

Partager cet article

Commentaires (0)

Poster un commentaire
NewsWorld

NewsWorld.app est un site d'actualités premium gratuit. Nous fournissons des actualités indépendantes et de haute qualité sans facturer par article et sans modèle d'abonnement. NewsWorld estime que les actualités générales, commerciales, économiques, technologiques et de divertissement devraient être accessibles à un niveau élevé gratuitement. De plus, NewsWorld est incroyablement rapide et utilise une technologie avancée pour présenter des articles d'actualités dans un format très lisible et attrayant pour le consommateur.


© 2024 NewsWorld™. Tous droits réservés.