Estudo revela que ChatGPT-4 falha na extração de informações de notas clínicas em registros médicos

Tempo de leitura: 2 minutos
Por Chi Silva
- em
Máquina de IA generativa analisando dados complexos de registros médicos.

São PauloPesquisadores da Escola de Saúde Pública Mailman da Universidade de Columbia investigaram o ChatGPT-4, um avançado modelo de linguagem, para verificar se ele consegue extrair detalhes específicos de prontuários médicos. O objetivo era saber se essa IA poderia identificar se ciclistas e usuários de patinetes estavam usando capacetes durante os acidentes. O estudo, publicado na JAMA Network Open, revela que o ChatGPT-4 enfrenta grandes limitações para realizar essa tarefa.

No estudo, pesquisadores analisaram 54.569 visitas ao pronto-socorro de 2019 a 2022 envolvendo lesões causadas pelo uso de diferentes dispositivos de micromobilidade. O ChatGPT-4 teve dificuldade em manter a precisão e consistência em comparação a um método de busca de texto padrão, enfrentando problemas principais como:

  • Respostas inconsistentes em testes consecutivos
  • Dificuldade em lidar com frases negativas
  • Maior consistência em repetir informações incorretas ("alucinações") do que dados precisos

Os desafios são preocupantes porque os modelos de linguagem podem ser extremamente úteis na área da saúde. Se o ChatGPT-4 não conseguir fornecer informações precisas de forma consistente, isso pode atrasar o processamento de dados em pesquisas médicas e no atendimento aos pacientes.

As notas clínicas contêm diversas informações médicas importantes, e acessá-las de maneira eficaz e precisa pode melhorar significativamente a pesquisa e o cuidado com os pacientes. Métodos tradicionais, como buscas simples de texto, frequentemente têm limitações por não conseguirem interpretar bem o contexto. Métodos avançados de IA oferecem mais flexibilidade, mas, como este estudo mostra, modelos de linguagem grandes, como o ChatGPT-4, ainda não são soluções confiáveis.

Os prompts utilizados neste estudo exigiram muitos testes para cobrir todos os textos importantes. No entanto, mesmo com todo esse esforço, o ChatGPT-4 frequentemente falhava em fornecer resultados precisos de forma consistente em dias diferentes. Isso demonstra que a tecnologia ainda não está suficientemente avançada para uso médico no mundo real, onde a confiabilidade e a precisão são essenciais.

Dr. Andrew Rundle, um dos principais autores do estudo, afirmou que, embora o uso de IA generativa para obter informações possa ser mais eficiente, ainda enfrenta problemas de confiabilidade e pode gerar informações falsas. Isso significa que, apesar de promissores, os modelos de linguagem ainda não são capazes de substituir ou melhorar adequadamente os métodos atuais de coleta de dados na área da saúde.

As tecnologias de IA ainda apresentam limitações em áreas críticas como a saúde. Precisamos desenvolver métodos mais confiáveis antes de utilizar grandes modelos de linguagem (LLMs) de forma segura em ambientes clínicos. A pesquisa é fundamental, especialmente para aprimorar o processamento de linguagem natural, permitindo uma melhor compreensão do contexto detalhado nas anotações clínicas.

O estudo é publicado aqui:

http://dx.doi.org/10.1001/jamanetworkopen.2024.25981

e sua citação oficial - incluindo autores e revista - é

Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.25981
Ciência: Últimas notícias
Leia mais:

Compartilhar este artigo

Comentários (0)

Publicar um comentário