Nuovo studio: l'AI generativa MAD potrebbe mandare in tilt internet
RomeModelli di IA generativa come GPT-4 di OpenAI e Stable Diffusion di Stability AI possono creare testi, codici, immagini e video. Tuttavia, l'addestramento di questi modelli richiede così tanti dati che gli sviluppatori stanno affrontando carenze. Con i dati reali sempre più difficili da reperire, alcuni suggeriscono di utilizzare dati sintetici per addestrare nuovi modelli di IA. Sebbene i dati sintetici siano più economici e disponibili in quantità illimitate, potrebbero presentare svantaggi significativi.
- Ciclo completamente sintetico: Generazioni addestrate esclusivamente con dati sintetici.
- Ciclo di aumento sintetico: Generazioni istruite con una combinazione di dati sintetici e un set fisso di dati reali.
- Ciclo di dati freschi: Generazioni formate con dati sintetici e un nuovo set di dati reali ogni volta.
Con l'aumento dell'uso dei dati sintetici, i modelli generativi rischiano di peggiorare. Senza un sufficiente apporto di nuovi dati reali, questi modelli tendono a produrre risultati meno precisi, più simili tra loro e talvolta difficili da interpretare. Questo ciclo decadente può compromettere irreparabilmente i modelli.
Il mio parere evidenzia effetti più ampi. Prima di tutto, riflettiamo sull'affidarsi a Internet per ottenere dati. Con l'incremento di dati falsi online, i futuri modelli di intelligenza artificiale finiranno per utilizzare inconsapevolmente sempre più contenuti alterati. Questo rende difficile reperire nuovi dati autentici. Di conseguenza, la qualità complessiva e l'affidabilità delle risposte fornite dall'IA potrebbero diminuire notevolmente.
I bias umani peggiorano la situazione. Quando gli utenti cercano risultati esteticamente gradevoli, tendono a selezionare solo certi esempi, riducendo la varietà dei dati. Questo porta a modelli meno flessibili e con maggiori errori.
Le applicazioni dell'IA in settori come la diagnostica medica, le auto a guida autonoma e le previsioni finanziarie si basano su dati accurati e diversificati. Se la qualità dei dati è scarsa, potrebbero verificarsi gravi errori e la fiducia nelle tecnologie di intelligenza artificiale potrebbe essere compromessa.
Regolatori e aziende tecnologiche devono agire rapidamente su questa questione. Devono stabilire rigide norme sulla quantità di dati falsi nei set di addestramento. Rendere i dati reali facilmente accessibili a tutti e investire in tecniche di gestione dei dati migliori può contribuire a risolvere il problema.
Il futuro di Internet e la fiducia nei sistemi di intelligenza artificiale richiedono un'azione rapida e collaborativa in quanto rappresentano un tema urgente e rilevante.
Lo studio è pubblicato qui:
https://openreview.net/pdf?id=ShjMHfmPs0e la sua citazione ufficiale - inclusi autori e rivista - è
Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]20 novembre 2024 · 17:56
Salto sensoriale: l'AI riconosce le texture delle superfici con tecnologia quantistica
Condividi questo articolo