Novo estudo: uso de dados sintéticos pode causar "loucura" em IA e quebrar a internet

Tempo de leitura: 2 minutos
Por Ana Silva
- em
Ícones de internet fragmentados com sinais de alerta e falhas

São PauloModelos de IA generativa como o GPT-4 da OpenAI e o Stable Diffusion da Stability AI podem criar textos, códigos, imagens e vídeos. No entanto, o treinamento desses modelos requer tantos dados que os desenvolvedores estão enfrentando escassez. À medida que os dados reais se tornam mais difíceis de encontrar, alguns sugerem o uso de dados sintéticos para treinar novos modelos de IA. Embora os dados sintéticos sejam mais baratos e disponíveis em quantidades ilimitadas, eles podem apresentar desvantagens significativas.

Grupo de Processamento Digital de Sinais da Rice University encontra sérios riscos em prática comum

  • Loop Sintético Completo: Gerações treinadas inteiramente com dados sintéticos.
  • Loop de Aumento Sintético: Gerações treinadas com uma mistura de dados sintéticos e um conjunto fixo de dados reais.
  • Loop de Dados Frescos: Gerações treinadas com dados sintéticos e um novo conjunto de dados reais a cada vez.

À medida que o uso de dados sintéticos se torna mais frequente, os modelos generativos podem começar a se degradar. Sem uma quantidade suficiente de novos dados reais, esses modelos produzem resultados menos precisos, mais semelhantes entre si, e às vezes difíceis de compreender. Esse ciclo decadente pode danificar permanentemente os modelos.

Minha perspectiva revela impactos mais amplos. Primeiro, considere a dependência da internet para obter informações. Conforme mais dados falsos são colocados online, futuros modelos de IA acabarão usando inadvertidamente mais desse conteúdo enganoso. Isso torna mais difícil encontrar novos dados reais. Consequentemente, a qualidade e a confiabilidade das saídas de IA podem diminuir drasticamente.

Os vieses humanos podem agravar os problemas. Quando usuários buscam por resultados visualmente atraentes, tendem a selecionar apenas alguns exemplos específicos, diminuindo a diversidade dos dados. Isso resulta em modelos menos flexíveis e mais propensos a erros.

Aplicações de IA em áreas como diagnósticos médicos, carros autônomos e previsões financeiras dependem de dados precisos e diversificados. Se a qualidade dos dados for ruim, isso pode causar erros graves e fazer com que as pessoas percam a confiança nos sistemas de IA.

Reguladores e empresas de tecnologia precisam agir rapidamente sobre esta questão. Devem estabelecer regras rigorosas sobre a quantidade de dados falsos nos conjuntos de treinamento. Facilitar o acesso aos dados reais para todos e investir em melhores técnicas de dados pode ajudar a resolver o problema.

O futuro da internet e a confiança nos sistemas de IA tornam MAD um problema sério e urgente, que exige uma ação rápida e colaborativa.

O estudo é publicado aqui:

https://openreview.net/pdf?id=ShjMHfmPs0

e sua citação oficial - incluindo autores e revista - é

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]
Inteligência Artificial: Últimas notícias

Compartilhar este artigo

Comentários (0)

Publicar um comentário