Iluminando dados ocultos: enfrentando a falta de transparência nos treinamentos de modelos de linguagem

Tempo de leitura: 2 minutos
Por Chi Silva
- em
'Conjunto de dados de IA com lupa e holofote.'

São PauloPara treinar grandes modelos de linguagem, precisamos de gigantescos conjuntos de dados. Esses dados geralmente são obtidos de várias fontes na web e combinados em grandes coleções. No entanto, detalhes importantes sobre a origem dos dados e quaisquer restrições quanto ao seu uso podem se perder nesse processo. Essa falta de clareza é um grande problema, pois pode levar a questões legais e éticas e reduzir o desempenho do modelo de IA. Por exemplo, se os dados estiverem mal rotulados, o modelo pode não funcionar bem para certas tarefas. Além disso, dados de fontes desconhecidas podem introduzir vieses, resultando em previsões injustas.

Um grupo de pesquisadores do MIT e de outras instituições conduziu recentemente uma análise detalhada e descobriu que:

  • Mais de 70% dos 1.800 conjuntos de dados textuais não incluíram informações completas sobre licenciamento.
  • Aproximadamente 50% tinham falhas nas informações de licenciamento.
  • Criadores de dados estavam majoritariamente localizados no norte global.
  • As restrições sobre conjuntos de dados aumentaram consideravelmente nos últimos anos.

Os pesquisadores desenvolveram uma ferramenta chamada Explorador de Proveniência dos Dados. Esta ferramenta gera automaticamente resumos simples sobre quem criou um conjunto de dados, de onde ele veio, que licenças possui e como pode ser utilizado.

Quando os conjuntos de dados são imprecisos ou incompletos, podem causar problemas significativos. Por exemplo, um modelo usado para avaliar pedidos de empréstimo pode ser tendencioso se os dados não representarem corretamente todas as pessoas, levando a empréstimos injustos. Além disso, modelos podem precisar ser descartados caso contenham informações privadas, resultando em tempo e esforço desperdiçados.

O problema da transparência vai além de um simples contratempo. Questões legais podem surgir se conjuntos de dados com termos de licenciamento mal compreendidos ou ignorados forem utilizados. É fundamental para a credibilidade e eficácia dos modelos de IA que desenvolvedores e usuários possam rastrear e confirmar os dados de treinamento.

A equipe do MIT descobriu que quando os conjuntos de dados são predominantemente criados por pessoas nos EUA ou na China, eles frequentemente deixam de fora detalhes culturais importantes necessários para outros países, como Turquia ou Brasil. Isso dificulta a utilidade dos modelos de IA treinados nesses dados em contextos globais.

Os pesquisadores acreditam que ferramentas como o Explorador de Proveniência de Dados podem minimizar problemas de transparência. Esses recursos oferecem informações claras sobre os conjuntos de dados, ajudando os desenvolvedores de IA a tomar decisões que respeitem padrões éticos e legais. Isso resulta em tecnologias de IA mais responsáveis, justas, eficientes e adequadas ao seu propósito.

A proveniência dos dados e a transparência no desenvolvimento de IA são cruciais. À medida que a IA é aplicada em mais áreas, torna-se essencial garantir que os dados de treinamento sejam bem documentados e obtidos de maneira ética.

O estudo é publicado aqui:

http://dx.doi.org/10.1038/s42256-024-00878-8

e sua citação oficial - incluindo autores e revista - é

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
Ciência: Últimas notícias
Leia mais:

Compartilhar este artigo

Comentários (0)

Publicar um comentário