새 연구: 생성형 AI로 인한 데이터 품질 및 다양성 감소 인터넷 위협
SeoulOpenAI의 GPT-4와 Stability AI의 Stable Diffusion 같은 생성 AI 모델은 텍스트, 코드, 이미지, 비디오 등을 생성할 수 있습니다. 그러나 이러한 모델을 훈련시키기 위해서는 방대한 양의 데이터가 필요하기 때문에 개발자들은 데이터 부족 문제에 직면하고 있습니다. 현실 세계의 데이터를 얻기 어려워지면서, 일부는 새로운 AI 모델을 훈련하는 데 합성 데이터를 사용할 것을 제안하고 있습니다. 합성 데이터는 비용이 저렴하고 무한정으로 얻을 수 있지만, 상당한 단점이 있을 수 있습니다.
최근 라이스 대학의 디지털 신호 처리 연구팀은 이 관행과 관련된 심각한 위험 요소를 발견했습니다. 이 문제를 "모델자가포식장애"(MAD)라고 명명했으며, 이는 인공지능 성능의 점진적 저하를 초래할 수 있습니다. 연구팀은 이를 더 잘 이해하기 위해 다양한 시나리오를 분석했습니다.
- 완전 합성 루프: 전적으로 합성 데이터로만 훈련된 세대.
- 합성 증강 루프: 합성 데이터와 고정된 실제 데이터 세트를 혼합하여 훈련된 세대.
- 신선한 데이터 루프: 합성 데이터와 매번 새로운 실제 데이터 세트를 사용하여 훈련된 세대.
합성 데이터의 사용이 증가함에 따라 생성 모델의 성능이 저하될 수 있습니다. 새로운 실제 데이터가 충분하지 않으면, 이러한 모델은 보다 낮은 정확도의 출력을 생성하며, 결과는 서로 유사해지고 때때로 이해하기 어려워질 수 있습니다. 이러한 하락하는 사이클은 모델에 영구적인 손상을 줄 수 있습니다.
제 관점은 더 넓은 영향을 보여줍니다. 먼저, 데이터를 얻기 위해 인터넷에 의존하는 것을 생각해보세요. 더 많은 가짜 데이터가 온라인에 올라오면서, 미래의 인공지능 모델은 이러한 가짜 콘텐츠를 무의식적으로 더 많이 사용하게 될 것입니다. 이는 새로운, 진짜 데이터를 찾는 것을 더 어렵게 만듭니다. 결과적으로 인공지능 출력의 전반적인 품질과 신뢰성이 크게 떨어질 수 있습니다.
인간의 편향은 상황을 악화시킬 수 있습니다. 사용자가 시각적으로 매력적인 결과를 추구할 때, 특정 예시만 선택할 수 있으며, 이는 데이터의 다양성을 감소시킵니다. 그로 인해 모델의 유연성이 떨어지고 오류가 증가하게 됩니다.
의료 진단, 자율 주행차, 금융 예측과 같은 분야의 AI 응용 프로그램은 정확하고 다양한 데이터에 의존합니다. 데이터의 품질이 낮으면 심각한 실수를 초래할 수 있으며 AI 시스템에 대한 신뢰를 잃게 만들 수 있습니다.
규제 당국과 기술 기업들은 이 문제에 신속하게 대응해야 합니다. 훈련 데이터 세트에 포함될 수 있는 허위 데이터의 양에 대해 강력한 규정을 마련해야 합니다. 실제 데이터를 모두가 쉽게 접할 수 있도록 하고, 더 나은 데이터 기술 개발에 투자하는 것이 문제 해결에 도움이 될 수 있습니다.
인터넷의 미래와 AI 시스템의 신뢰 가능성은 MAD가 심각하고 시급한 문제임을 나타내며, 신속하고 협력적인 대응이 필요합니다.
연구는 여기에서 발표되었습니다:
https://openreview.net/pdf?id=ShjMHfmPs0및 그 공식 인용 - 저자 및 저널 포함 - 다음과 같습니다
Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]2024년 11월 20일 · 오후 12:56
촉감의 혁신: AI와 양자기술로 표면 감지의 새로운 시대 열다
2024년 11월 19일 · 오후 8:02
모바일 친화적 AI: CALDERA로 대형 언어 모델을 가볍게 압축하기
2024년 11월 16일 · 오후 12:49
자율주행차 신뢰 혁신: 광주 팀의 설명 가능한 AI 연구 및 중요 전략 공개
이 기사 공유