新しい研究:生成AIは医療記録の臨床メモからの情報抽出に苦戦
Tokyoコロンビア大学メイルマン公衆衛生大学院の研究者たちは、大規模な言語モデルであるChatGPT-4を用いて、医療記録から特定の情報を引き出せるかどうかを調査しました。このAIは、事故時にスクーターや自転車のライダーがヘルメットを着用していたかを判断できるかどうかを確認するために使われました。JAMA Network Openに発表されたこの研究によると、ChatGPT-4は現時点でこの作業には大きな限界があることが示されています。
この研究では、研究者たちが2019年から2022年の間に発生した、様々なマイクロモビリティーデバイスによる怪我で54,569件の救急外来訪問を調査しました。ChatGPT-4は標準的なテキスト検索法と比べ、正確性と一貫性の面で苦労しました。主な問題点は次の通りです。
- 試行を重ねるごとに回答に一貫性がない
- 否定文を扱うのが困難である
- 正確な情報よりも誤った情報(「幻覚」)を再現するほうが一貫性がある
課題が懸念されるのは、大規模言語モデルが医療分野で非常に有用となり得るためです。ChatGPT-4が正確な情報を一貫して提供できない場合、医療研究や患者ケアにおけるデータ処理が遅れる可能性があります。
臨床メモには重要な医療情報が豊富に含まれていますが、これを効果的かつ正確に利用することで、研究や患者ケアを大きく向上させることができます。従来のテキスト検索のような方法は、文脈を理解するのが苦手なため、限界があります。先進的なAI技術は柔軟性を提供しますが、本研究が示すように、大型言語モデルであるChatGPT-4などは、現在のところ信頼性のある解決策とは言えません。
この研究で使用されたプロンプトは重要なテキストをすべて網羅するために多くのテストが必要でした。しかしそのような努力にもかかわらず、ChatGPT-4は日によって正確な結果を一貫して出すことができませんでした。このことは、信頼性と正確性が求められる現実の医療用途には、まだこの技術が十分でないことを示しています。
研究の主要著者であるアンドリュー・ランドル博士は、生成AIを用いた情報取得は効率性を高める可能性があるが、信頼性に欠け、誤った情報を生成することがあると述べています。したがって、この技術は有望であるものの、大規模型言語モデル(LLM)はまだ現時点の医療分野でのデータ取得方法を置き換えたり、適切に支援したりするには至っていないと言えます。
AI技術は現在、特に医療分野で制約があります。臨床の現場で安全に大規模言語モデル(LLM)を活用するには、より信頼性の高い方法を確立する必要があります。そのためには研究が不可欠であり、特に自然言語処理を改善し、医療記録の詳細な文脈をよりよく理解できるようにすることが重要です。
この研究はこちらに掲載されています:
http://dx.doi.org/10.1001/jamanetworkopen.2024.25981およびその公式引用 - 著者およびジャーナルを含む - は
Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.259812024年11月20日 · 13:04
AI安全対策会議:バイデン政策に逆行する専門家たち
2024年11月20日 · 12:56
AIが触覚を獲得:量子技術で表面を識別する新時代へ
2024年11月19日 · 20:02
モバイル時代のAI革命: CALDERAで進化する次世代小型言語モデル
この記事を共有