A batalha contra textos gerados por IA: a corrida para acompanhar modelos avançados de linguagem

Um novo estudo científico revela a dificuldade em detectar textos gerados por IA, devido ao rápido avanço dos modelos de linguagem.

Tempo de leitura: 2 minutos

Por Alex Morales

- 20 de agosto de 2024 em 06:52 em

Ciência, Inteligência Artificial

Mistura de texto de IA e humano com uma lupa

São PauloDesde 2019, textos gerados por máquinas têm confundido as pessoas. Ferramentas avançadas como GPT-2, ChatGPT e Llama tornam difícil distinguir se um texto foi escrito por um ser humano ou por uma máquina. Esses recursos economizam tempo e estimulam a criatividade, mas também podem ser usados para enganar. A tecnologia atual para identificar textos gerados por máquinas está avançando, mas os resultados ainda são variados.

Vários detectores comerciais afirmam ter uma precisão altíssima, com taxas de sucesso chegando a 99%. No entanto, testes independentes conduzidos por Chris Callison-Burch e sua equipe revelam resultados diferentes. Eles criaram um conjunto de dados chamado RAID, contendo mais de 10 milhões de documentos redigidos tanto por IA quanto por humanos. Esse conjunto de dados é crucial para avaliar a eficácia real dos detectores de texto.

Apesar dos avanços, muitos detectores ainda apresentam limitações ao se depararem com tipos variados de texto ou saídas de diferentes modelos de LLM. Alguns problemas comuns incluem:

Detectores treinados no ChatGPT têm dificuldades com outros modelos, como o Llama.
Detectores especializados, como os treinados em artigos de notícias, não funcionam bem com outros tipos de conteúdo, como receitas ou textos criativos.
Alterações simples no texto, como adicionar espaços ou trocar letras por símbolos, conseguem facilmente burlar a maioria dos detectores.

Sistemas de Detecção de Texto Ainda Estão Aquém

Queda das ações asiáticas apesar do sucesso da Nvidia

Os sistemas atuais de detecção de texto ainda não são completamente confiáveis. O aprendizado de máquina precisa evoluir para identificar textos gerados por outras máquinas e acompanhar os modelos de linguagem avançados. Truques simples, como trocar letras por símbolos parecidos, podem facilmente enganar esses detectores. Por isso, a tecnologia de detecção de hoje não é confiável o suficiente para tarefas essenciais, como garantir a honestidade no trabalho acadêmico ou controlar o conteúdo online.

A equipe Callison-Burch busca esclarecer questões e fomentar novas ideias nesse campo através da criação do RAID e de um placar público. Empresas poderão avaliar e aprimorar suas ferramentas com base nesse padrão. Essa competição aberta pode gerar avanços significativos na tecnologia de detecção.

A principal questão não é apenas identificar textos gerados por IA. Precisamos de ferramentas mais eficazes para entender os riscos e gerenciar seus efeitos. A comunidade deve se empenhar em reduzir os danos causados pela ampla disseminação desses textos. Isso envolve não só aprimorar os métodos de detecção, mas também ensinar os usuários a melhor compreender o conteúdo digital.

O estudo é publicado aqui:

NaN

e sua citação oficial - incluindo autores e revista - é

NaN

Inteligência Artificial: Últimas notícias