La lucha contra la detección de textos de IA: adaptándose a modelos lingüísticos avanzados

Un estudio científico reciente revela que resulta difícil distinguir el texto generado por IA debido a los rápidos avances en los modelos lingüísticos.

Tiempo de lectura: 2 minutos

Por Maria Lopez

- 20 de agosto de 2024 a las 6:52 en

Ciencia, Inteligencia Artificial

Mezcla de texto entre IA y humanos con una lupa

MadridDesde 2019, el texto generado por máquinas ha estado confundiendo a la gente. Herramientas avanzadas como GPT-2, ChatGPT y Llama hacen difícil saber si una escritura es de un humano o de una máquina. Estas herramientas ahorran tiempo y fomentan la creatividad, pero también pueden ser usadas para engañar. La tecnología actual para detectar texto generado por máquinas está mejorando, pero los resultados son variados.

Muchos detectores comerciales afirman ser muy precisos, con tasas de éxito de hasta el 99%. Sin embargo, pruebas independientes realizadas por Chris Callison-Burch y su equipo muestran resultados diferentes. Ellos crearon un conjunto de datos llamado RAID con más de 10 millones de documentos redactados tanto por IA como por humanos. Este conjunto de datos ayuda a verificar la efectividad real de los detectores de texto.

Sin embargo, la mayoría de los detectores no son eficaces ante diferentes tipos de texto o diversas salidas de modelos LLM. A continuación, se detallan algunos de los principales problemas:

Los detectores entrenados con ChatGPT fallan cuando se trata de otros modelos como Llama.
Detectores especializados, por ejemplo, aquellos entrenados con artículos de noticias, no funcionan bien con otro tipo de contenido como recetas o escritura creativa.
Cambios simples en el texto, como añadir espacios o sustituir letras por símbolos, pueden eludir fácilmente la mayoría de los detectores.

Lea también:

Ayer · 3:55

A pesar de las ganancias de Nvidia, caen las acciones asiáticas.

Los sistemas actuales de detección de texto aún no son completamente fiables. El aprendizaje automático necesita mejorar en la identificación de texto generado por otras máquinas para estar a la par con los modelos de lenguaje avanzados. Trucos simples como cambiar letras por símbolos similares pueden engañar fácilmente a estos detectores. Debido a esto, la tecnología de detección actual no es lo suficientemente confiable para tareas importantes como mantener la integridad académica o controlar el contenido en línea.

El equipo de Callison-Burch busca clarificar conceptos y fomentar nuevas ideas en este campo mediante la creación de RAID y un marcador público. Las empresas podrán verificar y mejorar sus herramientas utilizando este estándar. Esta competencia abierta podría derivar en grandes avances en la tecnología de detección.

El problema principal no es solo detectar texto generado por IA. Necesitamos mejores herramientas para comprender los riesgos y gestionar sus efectos. La comunidad debe trabajar en reducir el daño causado por la amplia distribución de texto generado por IA. Esto implica no solo mejorar los métodos de detección, sino también enseñar a los usuarios a comprender mejor el contenido digital.

El estudio se publica aquí:

NaN

y su cita oficial - incluidos autores y revista - es

NaN

Inteligencia Artificial: Últimas noticias