AIモデルの訓練データ透明性問題を明らかにする新研究: データの起源と質の課題
Tokyo大規模な言語モデルを訓練するには、膨大なデータセットが必要です。これらのデータセットは通常、さまざまなウェブソースから取得され、巨大なコレクションとしてまとめられます。しかし、その過程でデータの出所や利用に関する制約といった重要な詳細が失われることがあります。この不明確さは、法的および倫理的な問題を引き起こす可能性があり、AIモデルのパフォーマンスを低下させる大きな問題です。例えば、データに誤ったラベルが付けられていると、特定のタスクにおいてモデルがうまく機能しない場合があります。また、出所不明のデータは偏りをもたらし、不公正な予測につながる可能性があります。
MITをはじめとする大学の研究者たちが最近、詳細な調査を行い、以下の結果を見つけました。
1,800のテキストデータセットの70%以上がライセンス情報を一部欠いており、約半数はそのライセンス情報に誤りが含まれていました。データセットの作成者の多くは、主にグローバルノースに所在していました。また、最近の数年間で、データセットに対する制限が著しく増加しました。
研究者たちは「データプロビナンスエクスプローラー」と呼ばれるツールを開発しました。このツールは、自動的にデータセットの作成者、その出所、使用ライセンス、利用方法について簡単な要約を作成します。
データセットが不明確または不完全であると、大きな問題を引き起こすことがあります。たとえば、ローン申請を評価するためのモデルが、データがすべての人を正確に反映していない場合、偏りが生じる可能性があります。これにより、不公平な貸し付けが発生することもあります。また、モデルに個人情報が含まれている場合、削除が必要となるため、時間と労力が無駄になることもあります。
透明性の問題は単なる不便にとどまりません。ライセンス条項が誤解されたり無視されたりしているデータセットが使用されると、法的な問題が発生する可能性があります。AIモデルの信頼性と効果を確保するためには、開発者やユーザーがトレーニングデータを追跡し確認できることが重要です。
MITのチームは、データセットが主にアメリカや中国によって作成された場合、トルコやブラジルなど他の国で必要となる重要な文化的要素がしばしば欠けていることを発見しました。そのため、こうしたデータセットで訓練されたAIモデルが、全世界で役立つことが難しくなっています。
研究者たちは、「データプロベナンスエクスプローラ」のようなツールが透明性の問題を軽減することができると考えています。これらのツールはデータセットに関する明確な情報を提供し、AI開発者が倫理基準や法律を遵守する選択を行うのを助けます。その結果、公平で効率的で意図された用途に適した責任あるAI技術が実現されます。
AIの開発におけるデータの出所と透明性は非常に重要です。AIがさまざまな分野で利用されるようになるにつれて、トレーニングデータが適切に文書化され、倫理的に取得されていることを確認することが不可欠です。
この研究はこちらに掲載されています:
http://dx.doi.org/10.1038/s42256-024-00878-8およびその公式引用 - 著者およびジャーナルを含む - は
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-82024年11月20日 · 13:04
AI安全対策会議:バイデン政策に逆行する専門家たち
2024年11月20日 · 12:56
AIが触覚を獲得:量子技術で表面を識別する新時代へ
2024年11月19日 · 20:02
モバイル時代のAI革命: CALDERAで進化する次世代小型言語モデル
この記事を共有