Iluminando datos ocultos: cerrando brechas de transparencia en el entrenamiento de grandes modelos de lenguaje

Tiempo de lectura: 2 minutos
Por Pedro Martinez
- en
Conjunto de datos de IA con lupa y foco.

MadridPara entrenar modelos de lenguaje de gran escala, necesitamos conjuntos de datos enormes. Estos datos suelen provenir de diversas fuentes web y se combinan en grandes colecciones. Sin embargo, en este proceso se pueden perder detalles importantes sobre el origen de los datos y las restricciones sobre su uso. Esta falta de claridad es un problema serio, ya que puede provocar cuestiones legales y éticas, además de disminuir el rendimiento del modelo de IA. Por ejemplo, si los datos están mal etiquetados, el modelo puede no funcionar bien para ciertas tareas. Además, datos de fuentes desconocidas pueden introducir sesgos, lo que lleva a predicciones injustas.

Un equipo de investigadores de MIT y otras universidades realizó recientemente una minuciosa revisión y descubrió que:

  • Más del 70% de 1.800 conjuntos de datos textuales no incluían información de licencias.
  • Aproximadamente el 50% contenían errores en la información de licencias.
  • Los creadores de los conjuntos de datos estaban mayoritariamente en el norte global.
  • Las restricciones sobre los conjuntos de datos han aumentado significativamente en los últimos años.

Los investigadores desarrollaron una herramienta llamada Explorador de Procedencia de Datos. Esta herramienta genera automáticamente resúmenes sencillos sobre quién creó un conjunto de datos, su origen, las licencias que posee y cómo puede ser utilizado.

Cuando los conjuntos de datos son confusos o incompletos, pueden generar grandes problemas. Por ejemplo, un modelo utilizado para evaluar solicitudes de préstamos podría ser tendencioso si los datos no representan con precisión a toda la población, lo que podría resultar en préstamos injustos. Además, se podrían retirar modelos si contienen información privada, provocando así una pérdida de tiempo y esfuerzo.

El problema de la transparencia es más que una simple molestia. Pueden surgir cuestiones legales si se utilizan conjuntos de datos con términos de licencia mal entendidos o ignorados. Es fundamental para la credibilidad y efectividad de los modelos de IA que los desarrolladores y usuarios puedan rastrear y verificar sus datos de entrenamiento.

El equipo del MIT descubrió que cuando los conjuntos de datos son creados principalmente por personas en EE.UU. o China, suelen omitir detalles culturales importantes para otros países como Turquía o Brasil. Esto dificulta que los modelos de IA entrenados con esos datos sean útiles en todo el mundo.

Los investigadores consideran que herramientas como el Data Provenance Explorer pueden mitigar problemas de transparencia. Estas herramientas ofrecen información clara sobre los conjuntos de datos, ayudando a los desarrolladores de IA a tomar decisiones que cumplan con normas éticas y legales. Esto resulta en una tecnología de IA más responsable, equitativa, eficiente y adecuada para su propósito.

La procedencia y transparencia de los datos en el desarrollo de IA son fundamentales. A medida que la IA se utiliza en más campos, se vuelve crucial asegurar que los datos de entrenamiento estén bien documentados y obtenidos de manera ética.

El estudio se publica aquí:

http://dx.doi.org/10.1038/s42256-024-00878-8

y su cita oficial - incluidos autores y revista - es

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
Ciencia: Últimas noticias
Leer siguiente:

Compartir este artículo

Comentarios (0)

Publicar un comentario
NewsWorld

NewsWorld.app es un sitio de noticias premium gratuito. Proporcionamos noticias independientes y de alta calidad sin cobrar por artículo y sin un modelo de suscripción. NewsWorld cree que las noticias generales, de negocios, económicas, tecnológicas y de entretenimiento deberían ser accesibles a un alto nivel de forma gratuita. Además, NewsWorld es increíblemente rápido y utiliza tecnología avanzada para presentar artículos de noticias en un formato altamente legible y atractivo para el consumidor.


© 2024 NewsWorld™. Todos los derechos reservados.