Nuovo studio: l'AI generativa MAD potrebbe mandare in tilt internet

Un recente studio scientifico rivela che l'uso di AI generativa sta provocando un calo nella qualità e varietà dei dati su internet.

Tempo di lettura: 2 minuti

Di Torio Alleghi

- 16 agosto 2024 a 18:35 in

Scienza, Intelligenza Artificiale

RomeModelli di IA generativa come GPT-4 di OpenAI e Stable Diffusion di Stability AI possono creare testi, codici, immagini e video. Tuttavia, l'addestramento di questi modelli richiede così tanti dati che gli sviluppatori stanno affrontando carenze. Con i dati reali sempre più difficili da reperire, alcuni suggeriscono di utilizzare dati sintetici per addestrare nuovi modelli di IA. Sebbene i dati sintetici siano più economici e disponibili in quantità illimitate, potrebbero presentare svantaggi significativi.

Ciclo completamente sintetico: Generazioni addestrate esclusivamente con dati sintetici.
Ciclo di aumento sintetico: Generazioni istruite con una combinazione di dati sintetici e un set fisso di dati reali.
Ciclo di dati freschi: Generazioni formate con dati sintetici e un nuovo set di dati reali ogni volta.

Con l'aumento dell'uso dei dati sintetici, i modelli generativi rischiano di peggiorare. Senza un sufficiente apporto di nuovi dati reali, questi modelli tendono a produrre risultati meno precisi, più simili tra loro e talvolta difficili da interpretare. Questo ciclo decadente può compromettere irreparabilmente i modelli.

Il mio parere evidenzia effetti più ampi. Prima di tutto, riflettiamo sull'affidarsi a Internet per ottenere dati. Con l'incremento di dati falsi online, i futuri modelli di intelligenza artificiale finiranno per utilizzare inconsapevolmente sempre più contenuti alterati. Questo rende difficile reperire nuovi dati autentici. Di conseguenza, la qualità complessiva e l'affidabilità delle risposte fornite dall'IA potrebbero diminuire notevolmente.

I bias umani peggiorano la situazione. Quando gli utenti cercano risultati esteticamente gradevoli, tendono a selezionare solo certi esempi, riducendo la varietà dei dati. Questo porta a modelli meno flessibili e con maggiori errori.

Gli Stati Uniti dominano l'innovazione AI, la Cina insegue nel ranking di Stanford

Le applicazioni dell'IA in settori come la diagnostica medica, le auto a guida autonoma e le previsioni finanziarie si basano su dati accurati e diversificati. Se la qualità dei dati è scarsa, potrebbero verificarsi gravi errori e la fiducia nelle tecnologie di intelligenza artificiale potrebbe essere compromessa.

Regolatori e aziende tecnologiche devono agire rapidamente su questa questione. Devono stabilire rigide norme sulla quantità di dati falsi nei set di addestramento. Rendere i dati reali facilmente accessibili a tutti e investire in tecniche di gestione dei dati migliori può contribuire a risolvere il problema.

Il futuro di Internet e la fiducia nei sistemi di intelligenza artificiale richiedono un'azione rapida e collaborativa in quanto rappresentano un tema urgente e rilevante.

Lo studio è pubblicato qui:

https://openreview.net/pdf?id=ShjMHfmPs0

e la sua citazione ufficiale - inclusi autori e rivista - è

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]

Intelligenza Artificiale: Ultime notizie