대규모 언어 모델 학습의 투명성 문제: 데이터 출처 및 품질의 중요성 강조

소요 시간: 2 분
에 의해 Pedro Martinez
-
돋보기와 스포트라이트로 분석하는 AI 데이터셋.

Seoul대형 언어 모델을 훈련시키기 위해서는 방대한 데이터셋이 필요합니다. 이러한 데이터셋은 다양한 웹 소스에서 수집되어 큰 컬렉션으로 결합됩니다. 그러나 데이터의 출처와 사용에 대한 제한 사항과 같은 중요한 세부사항이 이 과정에서 손실될 수 있습니다. 이러한 명확성의 부족은 법적 및 윤리적 문제를 초래할 수 있으며 AI 모델의 성능을 저하시킬 수 있습니다. 예를 들어, 데이터가 잘못 표시되면 모델이 특정 작업에 대해 제대로 작동하지 않을 수 있습니다. 또한, 출처가 불분명한 데이터는 편견을 가져와 불공정한 예측을 유발할 수 있습니다.

MIT와 다른 학교의 연구진들이 최근에 철저한 분석을 수행하여 다음과 같은 결과를 발견했습니다.

1,800개의 텍스트 데이터셋 중 70% 이상이 라이선스 정보를 일부 누락했습니다. 약 50%는 라이선스 정보에 오류가 있었습니다. 데이터셋 제작자는 주로 북반구에 위치해 있었습니다. 최근 몇 년 동안 데이터셋에 대한 제한이 크게 증가했습니다.

연구자들은 데이터 출처 탐색기라는 도구를 개발했습니다. 이 도구는 누가 데이터셋을 만들었는지, 출처는 어디인지, 어떤 라이선스를 가지고 있는지, 그리고 어떻게 사용 가능한지를 자동으로 간단하게 요약해 줍니다.

데이터셋이 명확하지 않거나 불완전할 경우 큰 문제가 발생할 수 있습니다. 예를 들어, 대출 신청을 평가하는 모델이 정확히 모든 사람을 대표하지 않는 데이터를 사용할 경우 편향이 생길 수 있습니다. 이는 불공정한 대출로 이어질 수 있습니다. 또한, 개인 정보가 포함된 모델은 제거되어야 할 수도 있어, 이는 시간과 노력이 낭비될 수 있습니다.

투명성 문제는 단순한 불편함을 넘어서 법적인 문제를 일으킬 수 있습니다. 사용 허가 조건이 잘못 이해되거나 무시된 데이터셋을 사용할 경우 법적 문제가 발생할 수 있습니다. 따라서 개발자와 사용자가 AI 모델의 신뢰성과 효과성을 위해 그들의 훈련 데이터를 추적하고 확인할 수 있는 것이 매우 중요합니다.

MIT 연구팀은 미국이나 중국에서 주로 생성된 데이터셋이 종종 터키나 브라질과 같은 다른 나라에 필요한 중요한 문화적 세부 사항을 놓치는 경우가 많다는 것을 발견했습니다. 이로 인해 이러한 데이터셋으로 훈련된 AI 모델이 전 세계적으로 유용하게 사용되기 어렵습니다.

연구자들은 데이터 출처 탐색기와 같은 도구들이 투명성 문제를 줄일 수 있다고 생각합니다. 이러한 도구들은 데이터 세트에 대한 명확한 정보를 제공하여 AI 개발자들이 윤리 기준과 법규를 따르는 결정을 내릴 수 있도록 돕습니다. 이는 보다 공정하고 효율적이며 의도된 목적에 맞는 책임 있는 AI 기술로 이어집니다.

AI 개발에서 데이터 출처와 투명성은 매우 중요합니다. AI가 더 많은 분야에서 활용됨에 따라, 훈련 데이터가 잘 문서화되고 윤리적으로 수집되었는지를 확인하는 것이 필수적입니다.

연구는 여기에서 발표되었습니다:

http://dx.doi.org/10.1038/s42256-024-00878-8

및 그 공식 인용 - 저자 및 저널 포함 - 다음과 같습니다

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
과학: 최신 뉴스
다음 읽기:

이 기사 공유

댓글 (0)

댓글 게시
NewsWorld

NewsWorld.app은 무료 프리미엄 뉴스 사이트입니다. 기사당 요금을 부과하지 않고 구독 모델도 없이 독립적이고 고품질의 뉴스를 제공합니다. NewsWorld는 일반, 비즈니스, 경제, 기술 및 엔터테인먼트 뉴스가 무료로 고수준으로 액세스 가능해야 한다고 믿습니다. 또한 NewsWorld은 매우 빠르며 고급 기술을 사용하여 뉴스 기사를 소비자에게 매우 읽기 쉽고 매력적인 형식으로 제공합니다.


© 2024 NewsWorld™. 모든 권리 보유.