Nuevo estudio: investigadores usan grandes modelos de lenguaje para ayudar a robots a navegar

Tiempo de lectura: 2 minutos
Por Jamie Olivos
- en
Robot usando mapa y pantalla con indicaciones de texto.

MadridLos científicos están descubriendo nuevas formas de mejorar la navegación de los robots. Utilizan grandes modelos de lenguaje para combinar direcciones y datos visuales. Esto permite que los robots completen tareas más rápidamente. Así es como lo logran.

  • Transforman representaciones visuales en descripciones textuales.
  • Un modelo de lenguaje avanzado utiliza estas descripciones.
  • El modelo predice las acciones del robot basándose en las descripciones.

Los métodos tradicionales requieren numerosos modelos de aprendizaje automático, los cuales necesitan gran cantidad de datos visuales para su entrenamiento. La recopilación de estos datos es compleja. MIT y el MIT-IBM Watson AI Lab han encontrado una nueva solución.

Utilizan palabras en lugar de imágenes para ayudar al robot a comprender su entorno. Este método genera descripciones textuales de lo que el robot percibe. El gran modelo de lenguaje utiliza estas descripciones para decidir las acciones siguientes del robot.

Este método presenta diversas ventajas. Los datos de texto requieren menos recursos computacionales que los datos de imagen, lo que facilita la creación de datos de entrenamiento falsos. Por ejemplo, lograron generar 10,000 caminos falsos a partir de solo 10 reales.

El uso del lenguaje ayuda a resolver un problema común. Los entornos simulados a menudo no se asemejan al mundo real. Esto dificulta que los robots entrenados en simulaciones funcionen bien en la vida real. Pero las descripciones en lenguaje funcionan bien tanto en entornos simulados como en entornos reales.

El método basado en texto resulta más fácil de comprender para las personas. Cuando el robot comete un error, los investigadores pueden identificar qué salió mal. Así, pueden verificar si la información estaba lo suficientemente clara.

Hay algunas desventajas. Este método podría pasar por alto detalles que la información visual proporciona, como la profundidad. Sin embargo, el uso de información basada en lenguaje junto con datos visuales puede mejorar la navegación.

Los investigadores están entusiasmados con el uso del lenguaje para capturar información importante que las características visuales por sí solas no pueden proporcionar. Tienen la intención de estudiar esto más a fondo en el futuro y también desean crear mejores herramientas de subtitulado para la navegación, las cuales creen que podrían mejorar los resultados.

Además, están investigando cómo la comprensión del espacio puede facilitar la navegación que emplea el lenguaje. Este estudio está financiado en parte por el MIT-IBM Watson AI Lab.

Este método podría mejorar el movimiento de los robots. Utilizar comandos en lenguaje podría hacer que los robots sean más adaptables. Podrían realizar diversas tareas y trabajar en distintos entornos sin necesidad de modificaciones. Siempre que los datos se puedan convertir en palabras, se puede usar el mismo modelo. Esto hace que el método sea muy flexible.

Los modelos de lenguaje a gran escala pueden mejorar significativamente la navegación de los robots. Ofrecen numerosos beneficios y podrían convertirse en algo común en el futuro.

El estudio se publica aquí:

http://dx.doi.org/10.48550/arXiv.2310.07889

y su cita oficial - incluidos autores y revista - es

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Ciencia: Últimas noticias
Leer siguiente:

Compartir este artículo

Comentarios (0)

Publicar un comentario
NewsWorld

NewsWorld.app es un sitio de noticias premium gratuito. Proporcionamos noticias independientes y de alta calidad sin cobrar por artículo y sin un modelo de suscripción. NewsWorld cree que las noticias generales, de negocios, económicas, tecnológicas y de entretenimiento deberían ser accesibles a un alto nivel de forma gratuita. Además, NewsWorld es increíblemente rápido y utiliza tecnología avanzada para presentar artículos de noticias en un formato altamente legible y atractivo para el consumidor.


© 2024 NewsWorld™. Todos los derechos reservados.