Nueva era de la IA generativa: ¿MADness amenaza con colapsar la red?

Un reciente estudio científico revela que la inteligencia artificial generativa está provocando una disminución en la calidad y diversidad de los datos en internet.

Tiempo de lectura: 2 minutos

Por Maria Sanchez

- 16 de agosto de 2024 a las 13:35 en

Ciencia, Inteligencia Artificial

MadridModelos de IA generativa como GPT-4 de OpenAI y Stable Diffusion de Stability AI son capaces de crear textos, códigos, imágenes y videos. No obstante, entrenar estos modelos requiere tanta cantidad de datos que los desarrolladores enfrentan escasez. A medida que los datos del mundo real se vuelven más difíciles de encontrar, se sugiere utilizar datos sintéticos para entrenar nuevos modelos de IA. Aunque los datos sintéticos son más económicos y están disponibles en cantidades ilimitadas, pueden presentar desventajas significativas.

Ciclo completamente sintético: Generaciones entrenadas exclusivamente con datos sintéticos.
Ciclo de aumento sintético: Generaciones entrenadas con una mezcla de datos sintéticos y un conjunto fijo de datos reales.
Ciclo de datos frescos: Generaciones entrenadas con datos sintéticos y un nuevo conjunto de datos reales en cada iteración.

A medida que el uso de datos sintéticos se vuelve más frecuente, los modelos generativos pueden empezar a deteriorarse. Sin suficientes datos reales nuevos, estos modelos generan resultados menos precisos, más similares entre sí y a veces difíciles de interpretar. Este ciclo decadente puede dañar a los modelos de manera irreversible.

Mi perspectiva muestra efectos más amplios. Primero, considere la dependencia de internet para obtener información. A medida que más información falsa se publica en línea, los futuros modelos de IA utilizarán sin saberlo más de este contenido falso. Esto hará que sea más difícil encontrar nuevos datos reales. Como resultado, la calidad y la confiabilidad de las salidas de IA podrían disminuir significativamente.

Los sesgos humanos pueden empeorar la situación. Cuando los usuarios buscan resultados visualmente atractivos, pueden seleccionar solo ciertos ejemplos, lo que reduce la diversidad de los datos. Esto resulta en modelos menos flexibles y con mayores errores.

Lea también:

21 de noviembre de 2024 · 3:55

A pesar de las ganancias de Nvidia, caen las acciones asiáticas.

Las aplicaciones de IA en diagnósticos médicos, autos autónomos y previsiones financieras dependen de datos precisos y diversos. Si la calidad de los datos es deficiente, podría causar errores graves y hacer que la gente pierda confianza en los sistemas de IA.

Reguladores y empresas tecnológicas deben actuar con rapidez sobre este tema. Deben establecer normas estrictas sobre la cantidad de datos falsos permitidos en los conjuntos de entrenamiento. Facilitar el acceso a datos reales para todos y invertir en mejores técnicas de manejo de datos puede ayudar a resolver el problema.

El futuro de internet y la confiabilidad de los sistemas de IA convierten a MAD en un problema serio y urgente que requiere una acción rápida y colaborativa.

El estudio se publica aquí:

https://openreview.net/pdf?id=ShjMHfmPs0

y su cita oficial - incluidos autores y revista - es

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]

Inteligencia Artificial: Últimas noticias