新研究:AI、85%の成功率で人間のスケッチを認識可能に
Tokyoサリー大学とスタンフォード大学の研究者たちは、AIが人間の描くスケッチを理解するための新しい方法を開発しました。この方法は、絵を描くのが得意でない人でも効果的に機能します。モデルはシーンスケッチを人間に匹敵する精度で認識することができます。
サリー大学の視覚、音声、信号処理センター(CVSSP)の教員であるユリア・グリャジツカヤ博士は、スケッチを使ったコミュニケーションが視覚的に有力な方法であると述べています。彼女によると、スケッチは時に言葉よりも明確で柔軟性があると考えられています。スケッチを理解するためのツールは、人間とコンピュータの相互作用を向上させ、デザインをより迅速かつ簡単にすることができます。例としては次のようなものがあります。
<ul>
<li>スケッチを用いた画像検索</li>
<li>スケッチに基づく画像作成</li>
<li>デザイン作業の効率化</li>
<li>視覚的なコミュニケーションの向上</li>
</ul>
人々はアイデアを探求し伝えるために、年齢を問わず絵を描きます。しかし、AIはスケッチを理解するのに苦労しています。通常、AIは絵の各ピクセルに詳細なラベルを付けるプロセスを必要とします。AIはこれらのラベルから学習します。
新しい方法では、AIをシンプルな絵と文章による説明を組み合わせて訓練しました。AIはピクセルパターンを認識し、それを説明と比較することを学びました。この手法により、AIは従来の方法よりも画像をよりよく理解できるようになりました。その結果、AIは凧、木、キリン、その他のオブジェクトを85%の精度で識別しラベル付けすることができました。ラベル付きピクセルを使用した他のモデルは、これほどの性能を発揮しませんでした。
新しい方法は、それぞれのオブジェクトに対してどのペンのストロークが意図されていたかを識別できます。非芸術家によるラフなスケッチや、特定の訓練を受けていないオブジェクトの絵にも効果的に機能します。
スタンフォード大学の心理学の助教授であるジュディス・ファン教授は、描画や文章を書くことが、人間にとって重要な活動であると述べています。これらの活動は、人々が見たり考えたりしたことを記録する手助けをします。彼女は、この研究が絵と文字の両方でアイデアを理解できるAIシステムを開発するための一歩になると考えています。
サリー大学の人間中心AI研究所が進めているSketchXプログラムによる研究です。SketchXは、私たちが物をどのように見るかを、描く方法を通じて学ぼうとします。研究所とSketchXプログラムのリーダーの一人である宋怡哲教授によれば、この研究はAIがスケッチのような基本的な人間の活動を助ける可能性があることを示しています。単純な絵を人間とほぼ同じように理解する技術は、芸術的なスキルに関係なく、誰もが創造性を高める大きな可能性を秘めています。
研究成果は、2024年のIEEE/CVFコンピュータビジョンおよびパターン認識会議で発表されます。この会議は2024年6月17日から21日までシアトルで開催されます。
この研究はこちらに掲載されています:
http://dx.doi.org/10.48550/arXiv.2312.12463およびその公式引用 - 著者およびジャーナルを含む - は
Ahmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya. Open Vocabulary Semantic Scene Sketch Understanding. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2312.124632024年11月20日 · 13:04
AI安全対策会議:バイデン政策に逆行する専門家たち
2024年11月20日 · 12:56
AIが触覚を獲得:量子技術で表面を識別する新時代へ
2024年11月19日 · 20:02
モバイル時代のAI革命: CALDERAで進化する次世代小型言語モデル
この記事を共有