Nieuw onderzoek: generatieve AI faalt in betrouwbare informatie-extractie uit klinische aantekeningen in medische dossiers.
AmsterdamOnderzoekers van de Mailman School of Public Health aan de Columbia University hebben ChatGPT-4, een geavanceerd taalmodel, onderzocht om te kijken of het specifieke details uit medische dossiers kan halen. Ze wilden weten of deze AI kon vaststellen of gewonde scooter- en fietsrijders tijdens hun ongeval een helm droegen. Uit de studie, gepubliceerd in JAMA Network Open, blijkt dat ChatGPT-4 momenteel aanzienlijke beperkingen heeft bij deze taak.
In het onderzoek analyseerden de onderzoekers 54.569 bezoeken aan de spoedeisende hulp van 2019 tot 2022 met letsel door het gebruik van verschillende micromobiliteit-apparaten. ChatGPT-4 bleek minder nauwkeurig en consistent te zijn in vergelijking met een standaard tekstzoekmethode. De voornaamste problemen waren:
- Onregelmatigheid in antwoorden tussen opeenvolgende tests
- Moeite met het verwerken van ontkennende zinnen
- Grotere consistentie bij het herhalen van foutieve informatie ("hallucinaties") dan bij nauwkeurige gegevens
De problemen zijn zorgwekkend omdat LLM's zeer nuttig kunnen zijn in de gezondheidszorg. Als ChatGPT-4 niet consequent nauwkeurige informatie kan leveren, kan dat de gegevensverwerking in medisch onderzoek en patiëntenzorg vertragen.
Klinische aantekeningen bevatten veel belangrijke medische informatie, maar deze gegevens op een effectieve en nauwkeurige manier benutten kan onderzoek en de zorg voor patiënten aanzienlijk verbeteren. Traditionele methoden zoals eenvoudige tekstzoekopdrachten schieten vaak tekort omdat ze context niet goed begrijpen. Geavanceerde AI-methoden bieden meer flexibiliteit, maar zoals deze studie aantoont, zijn grote taalmodellen zoals ChatGPT-4 nog geen betrouwbare oplossingen.
21 november 2024 · 08:55
Nvidia imponeert, maar Aziatische beurs reageert aarzelend op concurrentie.
De gebruikte prompts in deze studie vereisten veel testen om alle belangrijke tekst te dekken. Desondanks, na alle inspanningen, gaf ChatGPT-4 vaak inconsistente en onnauwkeurige resultaten op verschillende dagen. Dit toont aan dat de technologie nog niet klaar is voor toepassing in de medische praktijk, waar betrouwbaarheid en precisie essentieel zijn.
Dr. Andrew Rundle, een van de hoofdauteurs van de studie, verklaarde dat hoewel het gebruik van generatieve AI om informatie te verkrijgen efficiënter kan zijn, het nog steeds problemen heeft met betrouwbaarheid en soms onjuiste informatie produceert. Dit betekent dat, ondanks de veelbelovende mogelijkheden, LLM's nog niet in staat zijn om huidige methoden voor het verkrijgen van gegevens in de gezondheidszorg te vervangen of effectief te ondersteunen.
AI-technologieën kennen momenteel beperkingen binnen kritieke gebieden als de gezondheidszorg. Betrouwbaardere methoden zijn noodzakelijk voordat grote taalmodellen (LLM's) veilig in klinische omgevingen kunnen worden ingezet. Onderzoek is essentieel, vooral om de natuurlijke taalverwerking te verbeteren zodat deze de gedetailleerde context van klinische aantekeningen beter kan begrijpen.
De studie is hier gepubliceerd:
http://dx.doi.org/10.1001/jamanetworkopen.2024.25981en de officiële citatie - inclusief auteurs en tijdschrift - is
Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.2598120 november 2024 · 01:02
AI onderweg: compacte taalmodellen voor betere prestaties op mobiele apparaten
18 november 2024 · 14:36
Precieze gedragsstudies bij muizen dankzij AI: minder dieren en snellere resultaten
Deel dit artikel