새 연구: 대형 언어 모델이 로봇의 길 찾기에 도움이 된다

소요 시간: 2 분
에 의해 Jamie Olivos
-
지도와 화면에 표시된 문구를 이용하여 로봇이 작동합니다.

Seoul과학자들은 로봇의 내비게이션을 개선하기 위한 새로운 방법을 모색하고 있습니다. 그들은 큰 언어 모델을 사용하여 지시 사항과 시각 데이터를 결합합니다. 이를 통해 로봇이 작업을 더 빠르게 완료할 수 있게 됩니다. 과학자들이 어떻게 이 목표를 달성하는지 살펴봅시다.

  • 시각적 정보를 텍스트로 바꿉니다.
  • 이 텍스트는 대형 언어 모델에 활용됩니다.
  • 이 모델은 텍스트를 기반으로 로봇의 행동을 예측합니다.

전통적인 방법들은 많은 기계 학습 모델을 필요로 하며, 이를 학습시키기 위해서는 많은 양의 시각적 데이터가 필요합니다. 이러한 데이터는 수집하기 어렵습니다. MIT와 MIT-IBM Watson AI Lab이 이에 대한 새로운 해결책을 제시했습니다.

그들은 로봇이 주변 환경을 이해할 수 있도록 그림 대신 단어를 사용합니다. 이 방법은 로봇이 보는 것을 텍스트로 설명합니다. 대형 언어 모델은 이러한 설명을 토대로 로봇의 다음 행동을 결정합니다.

이 방법은 여러 가지 장점이 있습니다. 텍스트 데이터는 이미지 데이터보다 적은 컴퓨팅 파워를 사용합니다. 이로 인해 가짜 학습 데이터를 더 쉽게 생성할 수 있습니다. 예를 들어, 단 10개의 실제 경로에서 10,000개의 가짜 경로를 만들었습니다.

언어 사용은 공통적인 문제를 해결하는 데 도움이 됩니다. 시뮬레이션 환경은 실제 세계와 다를 때가 많습니다. 이로 인해 시뮬레이션에서 훈련된 로봇들이 현실에서도 잘 작동하기 어렵습니다. 그러나 언어 설명은 시뮬레이션과 현실 환경 모두에서 잘 작동합니다.

텍스트 기반 방식은 사람들이 이해하기 더 쉽습니다. 로봇이 실수를 하면 연구자들은 문제의 원인을 파악할 수 있습니다. 또한 정보가 충분히 명확했는지 확인할 수 있습니다.

몇 가지 단점이 있습니다. 이 방법은 시각 정보가 제공하는 깊이와 같은 세부 사항을 놓칠 수 있습니다. 그러나 언어 기반 정보와 시각 데이터를 함께 사용하면 내비게이션이 향상될 수 있습니다.

연구자들은 시각적 특징만으로는 포착할 수 없는 중요한 정보를 언어를 통해 얻는 것에 대해 열정적입니다. 그들은 앞으로 이를 더 연구하고자 하며, 결과를 개선할 수 있을 것이라고 믿는 내비게이션을 위한 더 나은 캡션 생성 도구를 만들고 싶어합니다.

그들은 또한 언어를 활용한 항법에 있어서 우주에 대한 이해가 어떻게 도움이 될 수 있는지를 연구하고 있습니다. 이 연구는 MIT-IBM Watson AI 연구소의 지원을 받습니다.

이 방법은 로봇의 이동성을 향상시킬 수 있습니다. 언어 명령을 사용하면 로봇이 더욱 적응력 있게 됩니다. 다양한 작업을 수행하고 다양한 환경에서 변경 없이도 작동할 수 있습니다. 데이터를 단어로 변환할 수 있는 한, 동일한 모델을 사용할 수 있습니다. 이로 인해 이 방법은 매우 유연합니다.

대형 언어 모델은 로봇 항법을 크게 향상시킬 수 있습니다. 이러한 모델은 많은 이점을 제공하며 앞으로 일반화될 가능성이 높습니다.

연구는 여기에서 발표되었습니다:

http://dx.doi.org/10.48550/arXiv.2310.07889

및 그 공식 인용 - 저자 및 저널 포함 - 다음과 같습니다

Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim. LangNav: Language as a Perceptual Representation for Navigation. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2310.07889
과학: 최신 뉴스
다음 읽기:

이 기사 공유

댓글 (0)

댓글 게시
NewsWorld

NewsWorld.app은 무료 프리미엄 뉴스 사이트입니다. 기사당 요금을 부과하지 않고 구독 모델도 없이 독립적이고 고품질의 뉴스를 제공합니다. NewsWorld는 일반, 비즈니스, 경제, 기술 및 엔터테인먼트 뉴스가 무료로 고수준으로 액세스 가능해야 한다고 믿습니다. 또한 NewsWorld은 매우 빠르며 고급 기술을 사용하여 뉴스 기사를 소비자에게 매우 읽기 쉽고 매력적인 형식으로 제공합니다.


© 2024 NewsWorld™. 모든 권리 보유.