AIの間違った自信を抑える新手法で人々の予測信頼性を向上

読了時間: 2 分
によって Maria Sanchez
-
AIのシンボルと注意サインを伴ったバランススケール

Tokyo研究者たちは、AIモデルが誤った答えに対して自信を持ちすぎないようにする新しい方法を発見しました。この方法は「サーモメーター」と呼ばれ、大規模な言語モデルをより信頼性の高いものにすることを目指しています。

人々はさまざまな作業において大規模言語モデルを利用しています。例えば、言語翻訳、金融詐欺の検出、顧客サービスの質問に答えるといった用途があります。

これらのモデルは常に正しいわけではありません。誤った回答に自信を持つこともあれば、正しい回答に十分な自信を持たないこともあります。そのため、信頼するのが難しいです。

MITとMIT-IBM Watson AI Labの研究者たちは、この問題を解決するためにThermometerを開発しました。Thermometerは、小さな追加モデルを用いて、大規模言語モデルの信頼度を調整します。この新しい方法は効率的で、大量のコンピューティングパワーを必要としません。さらに、モデルの精度も維持されます。

従来の手法は単一のタスクに特化して機械学習モデルを調整するために設計されています。しかし、大規模言語モデル(LLM)には多くのタスクを遂行する能力があるため、これらの方法は効果的ではありません。従来の手法を用いると、その調整対象でないタスクに対するLLMの性能が低下する可能性があります。

大規模な言語モデルのキャリブレーションは、通常、多くのサンプルを収集して組み合わせる必要があり、計算コストが高くなります。Thermometerは別のアプローチを提供し、温度スケーリングを使ってモデルの信頼度を調整します。この方法はキャリブレーションの確立された手法であり、「温度」は予測の信頼度と実際の精度を一致させるためのパラメータです。

通常、適切な温度を見つけるためにはラベル付きの検証データセットが必要です。しかし、新しいタスクのためのラベル付きデータセットを取得することは難しいです。例えば、企業が新製品に関する質問に答えるために言語モデルを使用したい場合、そのためのデータセットはまだ用意されていないことが多いです。

温度計は補助モデルを使って必要な温度を推測します。このモデルは、いくつかの一般的な課題のデータを基に訓練され、新たな課題でも追加のラベル付きデータなしに対応できるようになります。例えば、代数や医療系の選択問題に基づいて訓練された温度計は、幾何学や生物学の質問に対しても答えを調整することができます。

温度計モデルは改善されましたが、まだ完璧ではありません。このモデルが必要とするのは大規模言語モデルの一部だけであり、そのため処理速度への影響はわずかです。

温度計は、他の方法よりテストでより正確な不確かさの結果を出し、また計算力もあまり必要としませんでした。

科学者たちは、Thermometerが多くの異なるタスクで訓練されると、新しいタスクにも効果的に対処できると考えています。また、同じグループ内で小規模モデルと大規模モデルの両方ともうまく機能することが判明しました。これにより、Thermometerは非常に柔軟な手法とされています。

MIT-IBM Watson AIラボの支援を受けた研究チームは、温度計をさらに難易度の高い作業や大規模な言語モデルに適用できるよう改良を計画しています。また、新しいタスクで優れた性能を発揮するために必要なラベル付きデータセットの数も調査したいと考えています。

この研究はこちらに掲載されています:

http://dx.doi.org/10.48550/arXiv.2403.08819

およびその公式引用 - 著者およびジャーナルを含む - は

Maohao Shen, Subhro Das, Kristjan Greenewald, Prasanna Sattigeri, Gregory Wornell, Soumya Ghosh. Thermometer: Towards Universal Calibration for Large Language Models. arXiv.org, 2024; DOI: 10.48550/arXiv.2403.08819
人工知能: 最新ニュース
次を読む:

この記事を共有

コメント (0)

コメントを投稿