Ny studie: Generativ AI har svårt att exakt extrahera information från kliniska journalanteckningar.

En ny studie visar att generativ AI fortfarande har svårt att korrekt hämta information från kliniska anteckningar i medicinska journaler.

Lästid: 2 minuter

Av Pedro Martinez

- 19 augusti 2024 vid 22:10 i

Vetenskap, Artificiell Intelligens

Generativ AI-maskin som undersöker komplexa medicinska journaldata.

StockholmForskare vid Columbia University Mailman School of Public Health har undersökt ChatGPT-4, en stor språkmodell, för att se om den kan hämta specifika detaljer från medicinska journaler. De ville ta reda på om denna AI kunde avgöra om skadade skoter- och cykelåkare bar hjälmar vid sina olyckor. Studien, som publicerades i JAMA Network Open, visar att ChatGPT-4 för närvarande har betydande begränsningar i att utföra denna uppgift.

I studien undersökte forskarna 54 569 besök på akuten under perioden 2019 till 2022 som var kopplade till skador från användning av olika typer av mikromobilitetsfordon. ChatGPT-4 visade sig ha svårigheter med noggrannhet och konsekvens jämfört med en vanlig textbaserad sökmetod. Huvudproblemen var:

Variationer i svar mellan på varandra följande försök
Problem med att hantera negationer
Större förmåga att konsekvent återskapa felaktig information ("hallucinationer") än korrekt data

Utmaningarna är oroväckande eftersom LLM:er kan vara mycket användbara inom hälso- och sjukvården. Om ChatGPT-4 inte konsekvent kan ge korrekt information, kan det hindra databehandling inom medicinsk forskning och patientvård.

Kliniska anteckningar innehåller mycket viktig medicinsk information, men för att förbättra forskning och patientvård är det viktigt att kunna komma åt denna data effektivt och noggrant. Traditionella metoder som grundläggande textsökningar är ofta begränsade eftersom de inte kan förstå sammanhanget ordentligt. Avancerade AI-metoder erbjuder mer flexibilitet, men som den här studien visar, är stora språkmodeller som ChatGPT-4 fortfarande inte pålitliga lösningar än.

Läs också:

USA:s och Kinas flaggor med AI-digital grafik.

21 november 2024 · 15:27

USA dominerar AI-innovation, lämnar Kina bakom i Stanford-rankning

De uppmaningar som användes i denna studie krävde mycket testning för att täcka all viktig text. Trots detta misslyckades ChatGPT-4 ofta med att ge korrekta resultat konsekvent vid olika tillfällen. Detta visar att tekniken ännu inte är tillräckligt utvecklad för medicinskt bruk i verkliga världen, där tillförlitlighet och precision är avgörande.

Dr. Andrew Rundle, en av huvudförfattarna till studien, nämnde att även om generativ AI kan göra det mer effektivt att hämta information, har tekniken fortfarande problem med pålitlighet och kan ibland producera felaktig information. Detta innebär att, trots sina lovande möjligheter, kan LLMs ännu inte ersätta eller tillräckligt assistera nuvarande metoder för datainsamling inom sjukvården.

AI-teknologier har fortfarande begränsningar inom viktiga områden som vården. Vi behöver utveckla mer pålitliga metoder innan vi kan använda stora språkmodeller (LLM) säkert i kliniska miljöer. Forskning är avgörande, särskilt för att förbättra naturlig språkbehandling så att den bättre kan förstå den detaljerade kontexten i kliniska anteckningar.

Studien publiceras här:

http://dx.doi.org/10.1001/jamanetworkopen.2024.25981

och dess officiella citering - inklusive författare och tidskrift - är

Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.25981

Artificiell Intelligens: Senaste nytt