Nuevo estudio: ChatGPT-4 falla al extraer datos precisos de notas clínicas médicas
MadridInvestigadores de la Escuela de Salud Pública Mailman de la Universidad de Columbia han examinado ChatGPT-4, un modelo de lenguaje avanzado, para determinar su capacidad de extraer detalles específicos de registros médicos. Querían saber si esta inteligencia artificial podía identificar si los ciclistas y conductores de scooters lesionados llevaban cascos durante sus accidentes. El estudio, publicado en JAMA Network Open, revela que ChatGPT-4 aún presenta grandes limitaciones para realizar esta tarea.
En el estudio, los investigadores analizaron 54,569 visitas a la sala de emergencias entre 2019 y 2022 que involucraron lesiones por el uso de diferentes dispositivos de micromovilidad. ChatGPT-4 mostró dificultades en precisión y consistencia en comparación con un método estándar de búsqueda de textos. Los principales problemas incluyeron:
- Respuestas inconsistentes en pruebas sucesivas
- Dificultad para manejar frases negadas
- Mayor consistencia al replicar información incorrecta ("alucinaciones") que datos precisos
Estos desafíos son preocupantes porque las LLMs podrían ser muy útiles en el ámbito de la salud. Si ChatGPT-4 no puede ofrecer información precisa consistentemente, podría ralentizar el procesamiento de datos en la investigación médica y la atención al paciente.
Las notas clínicas contienen mucha información médica importante, pero acceder a estos datos de manera eficaz y precisa puede mejorar significativamente la investigación y la atención al paciente. Los métodos tradicionales como las búsquedas de texto básicas a menudo son limitados porque no pueden comprender bien el contexto. Los métodos avanzados de IA ofrecen más flexibilidad, pero como muestra este estudio, los grandes modelos de lenguaje como ChatGPT-4 aún no son soluciones confiables.
Los estímulos empleados en este estudio requirieron extensas pruebas para abarcar toda la información relevante. No obstante, a pesar de este esfuerzo, ChatGPT-4 a menudo no lograba proporcionar resultados precisos de manera consistente en diferentes días. Esto demuestra que la tecnología aún no es lo suficientemente avanzada para su uso médico en el mundo real, donde la confiabilidad y la precisión son esenciales.
El Dr. Andrew Rundle, uno de los principales autores del estudio, comentó que aunque el uso de la IA generativa para obtener información podría ser más eficiente, todavía presenta problemas de fiabilidad y a veces genera información incorrecta. Esto implica que, a pesar de su potencial, los modelos de lenguaje aún no pueden sustituir ni asistir adecuadamente a los métodos actuales de recopilación de datos en el ámbito de la salud.
Las tecnologías de inteligencia artificial (IA) actualmente presentan limitaciones en áreas críticas como la salud. Es necesario desarrollar métodos más confiables antes de utilizar de manera segura modelos de lenguaje extenso (LLMs) en entornos clínicos. Es esencial realizar investigaciones, especialmente para mejorar el procesamiento de lenguaje natural, de forma que pueda comprender mejor el contexto detallado en las notas clínicas.
El estudio se publica aquí:
http://dx.doi.org/10.1001/jamanetworkopen.2024.25981y su cita oficial - incluidos autores y revista - es
Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.2598121 de noviembre de 2024 · 23:24
Avance en nanotecnología: nueva era para la carga rápida y biosensores más precisos
Compartir este artículo