Novo estudo: pesquisadores usam grandes modelos de linguagem para ajudar robôs a navegar

Tempo de leitura: 2 minutos
Por João Silva
- em
Robô usando mapa e tela com prompts de texto

São PauloCientistas estão descobrindo novas maneiras de melhorar a navegação de robôs. Eles utilizam grandes modelos de linguagem para combinar direções e dados visuais. Isso permite que os robôs concluam tarefas mais rapidamente. Veja como eles alcançam isso.

  • Eles transformam representações visuais em legendas de texto.
  • Um grande modelo de linguagem utiliza essas legendas.
  • O modelo prevê as ações do robô com base nas legendas.

Métodos tradicionais necessitam de diversos modelos de machine learning, que exigem uma grande quantidade de dados visuais para treinamento. Esses dados são difíceis de obter. O MIT e o MIT-IBM Watson AI Lab desenvolveram uma nova solução.

Eles utilizam palavras em vez de imagens para ajudar o robô a compreender o ambiente ao seu redor. Essa técnica gera descrições textuais do que o robô enxerga. Em seguida, o grande modelo de linguagem usa essas descrições para definir as próximas ações do robô.

Este método apresenta diversas vantagens. Dados textuais consomem menos poder computacional do que dados de imagem. Isso facilita a criação de dados de treinamento falsos. Por exemplo, eles geraram 10.000 caminhos falsos a partir de apenas 10 reais.

O uso da linguagem ajuda a resolver um problema comum. Ambientes simulados geralmente não são como o mundo real. Isso dificulta que robôs treinados em simulações funcionem bem na vida real. No entanto, descrições em linguagem são eficazes tanto em ambientes simulados quanto no mundo real.

O método baseado em texto é mais fácil de compreender para as pessoas. Quando o robô comete um erro, os pesquisadores podem ver o que deu errado e verificar se as informações estavam claras o suficiente.

Existem algumas desvantagens. Este método pode perder detalhes que a informação visual oferece, como a profundidade. No entanto, utilizar informações baseadas em linguagem junto com dados visuais pode melhorar a navegação.

Pesquisadores estão entusiasmados em utilizar a linguagem para capturar informações importantes que somente características visuais não conseguem fornecer. Eles pretendem estudar isso mais a fundo no futuro e também desejam criar melhores ferramentas de legendagem para navegação, acreditando que isso poderia melhorar os resultados.

Eles também estão investigando como a compreensão do espaço pode auxiliar na navegação que utiliza linguagem. Esse estudo é financiado em parte pelo MIT-IBM Watson AI Lab.

Esse método pode melhorar a mobilidade dos robôs. Utilizar comandos de linguagem pode tornar os robôs mais adaptáveis. Eles poderiam realizar diversas tarefas e operar em diferentes ambientes sem precisar de modificações. Contanto que os dados possam ser convertidos em palavras, o mesmo modelo pode ser utilizado. Isso faz com que o método seja muito flexível.

Modelos de linguagem avançados podem aprimorar significativamente a navegação de robôs. Eles oferecem diversos benefícios e provavelmente se tornarão comuns no futuro.

O estudo é publicado aqui:

http://dx.doi.org/10.48550/arXiv.2310.07889

e sua citação oficial - incluindo autores e revista - é

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
Ciência: Últimas notícias
Leia mais:

Compartilhar este artigo

Comentários (0)

Publicar um comentário