Nouvelle étude : l’IA générative pourrait causer une dégradation massive d’internet

Temps de lecture: 2 minutes
Par Francois Dupont
- dans
Icônes Internet fragmentées avec des signes d'avertissement et des dysfonctionnements.

ParisLes modèles d'IA générative, tels que GPT-4 d'OpenAI et Stable Diffusion de Stability AI, peuvent produire du texte, du code, des images et des vidéos. Cependant, l'entraînement de ces modèles nécessite tellement de données que les développeurs se heurtent à des pénuries. Alors que les données réelles deviennent de plus en plus rares, certains proposent d'utiliser des données synthétiques pour former de nouveaux modèles d'IA. Bien que les données synthétiques soient moins coûteuses et disponibles en quantités illimitées, elles peuvent présenter des inconvénients majeurs.

  • Boucle entièrement synthétique : Générations formées exclusivement avec des données synthétiques.
  • Boucle d'augmentation synthétique : Générations formées avec un mélange de données synthétiques et d'un ensemble fixe de données réelles.
  • Boucle de données fraîches : Générations formées avec des données synthétiques et un nouvel ensemble de données réelles à chaque itération.

Avec la popularisation des données synthétiques, l'efficacité des modèles génératifs peut se détériorer. En l'absence de nouvelles données réelles en quantité suffisante, ces modèles génèrent des résultats moins précis, plus uniformes et parfois difficiles à interpréter. Ce cercle vicieux peut finir par endommager les modèles de manière irréversible.

Mon point de vue montre des effets plus larges. Tout d'abord, considérons la dépendance à Internet pour les données. Avec l'augmentation des données fausses en ligne, les futurs modèles d'IA utiliseront involontairement davantage de ce contenu erroné. Cela rendra plus difficile la recherche de nouvelles données authentiques. En conséquence, la qualité globale et la fiabilité des productions d'IA risquent de diminuer de manière significative.

Les biais humains peuvent aggraver la situation. Lorsque les utilisateurs recherchent des résultats esthétiquement plaisants, ils peuvent ne choisir que certains exemples, ce qui réduit la diversité des données. Cela conduit à des modèles moins flexibles et plus sujets aux erreurs.

Les applications de l'IA dans des domaines tels que le diagnostic médical, les voitures autonomes et les prévisions financières reposent sur des données précises et diversifiées. Une qualité de données médiocre peut entraîner des erreurs graves et éroder la confiance du public dans ces systèmes.

Les régulateurs et les entreprises technologiques doivent réagir rapidement. Ils devraient établir des règles strictes concernant la quantité de données falsifiées autorisées dans les ensembles d'entraînement. Rendre les données réelles facilement accessibles et investir dans de meilleures techniques de données peut contribuer à résoudre ce problème.

L'avenir de l'internet et la fiabilité des systèmes d'IA posent un enjeu urgent et sérieux nécessitant une action rapide et coopérative.

L'étude est publiée ici:

https://openreview.net/pdf?id=ShjMHfmPs0

et sa citation officielle - y compris les auteurs et la revue - est

Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]
Intelligence Artificielle: Dernières nouvelles

Partager cet article

Commentaires (0)

Poster un commentaire
NewsWorld

NewsWorld.app est un site d'actualités premium gratuit. Nous fournissons des actualités indépendantes et de haute qualité sans facturer par article et sans modèle d'abonnement. NewsWorld estime que les actualités générales, commerciales, économiques, technologiques et de divertissement devraient être accessibles à un niveau élevé gratuitement. De plus, NewsWorld est incroyablement rapide et utilise une technologie avancée pour présenter des articles d'actualités dans un format très lisible et attrayant pour le consommateur.


© 2024 NewsWorld™. Tous droits réservés.