新研究: 生成AIの問題がインターネットのデータ品質と多様性を脅かす可能性

読了時間: 2 分
によって Maria Sanchez
-
警告マークや不具合のある断片化したインターネットアイコン

Tokyo生成AIモデル、例えばOpenAIのGPT-4やStability AIのStable Diffusionは、テキスト、コード、画像、動画を生成できます。しかし、これらのモデルのトレーニングには大量のデータが必要で、開発者たちはデータ不足に直面しています。実世界のデータが入手困難になる中、一部では新しいAIモデルのトレーニングに合成データを用いることを提案しています。合成データは安価で無限に利用可能ですが、重大な欠点があるかもしれません。

ライス大学のデジタル信号処理グループは、最近この手法に関連する重大なリスクを発見しました。彼らはこの問題を「モデルオートファジー障害(MAD)」と名付け、AIの性能が徐々に低下する可能性があると警告しています。さまざまなシナリオを調査して、この現象をより深く理解しようとしています。

  • 完全に人工データのみで訓練された世代。
  • 人工データと固定された実データを組み合わせて訓練された世代。
  • 人工データと毎回新しい実データを使用して訓練された世代。

<強調>合成データ</強調>の利用が一般的になるにつれて、生成モデルの性能が低下する可能性があります。新しい実データが不足すると、これらのモデルは、精度が低く、相互に似通った、あるいは理解しにくい出力を生み出します。この減少サイクルは、モデルに恒久的な損傷を与えることもあります。

私の見解では、より広範な影響があります。まず、データの取得にインターネットを頼ることを考えてみましょう。オンライン上に偽情報が増えるにつれ、将来のAIモデルはそうとは知らずにこれを取り込んでいく可能性が高まります。その結果、現実の新しい情報を見つけるのが困難になり、AIのアウトプットの質や信頼性が大きく低下する恐れがあります。

人間のバイアスは状況を悪化させることがあります。ユーザーが視覚的に魅力的な結果を求めるとき、特定の例だけを選ぶ傾向があり、これがデータの多様性を減少させます。その結果、モデルの柔軟性が低下し、誤りが増えることになります。

医療診断、自動運転車、金融予測などの分野でのAIアプリケーションは、正確で多様なデータに依存しています。データの質が低いと、重大な誤りを引き起こし、人々がAIシステムに対する信頼を失う原因となる可能性があります。

規制当局とテクノロジー企業は、この問題に迅速に対処する必要があります。彼らは、トレーニングセットに含まれる偽データの量を制限する厳格な規則を作成すべきです。本物のデータを誰でも簡単に利用できるようにすることや、より良いデータ技術に資金を投じることが、問題解決に役立ちます。

インターネットの未来とAIシステムへの信頼性に関して、MADは早急に協力して対処すべき深刻で緊急の問題です。

この研究はこちらに掲載されています:

https://openreview.net/pdf?id=ShjMHfmPs0

およびその公式引用 - 著者およびジャーナルを含む - は

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]
人工知能: 最新ニュース
次を読む:

この記事を共有

コメント (0)

コメントを投稿