Éclairer les données cachées : combler les lacunes de transparence dans l'entraînement des grands modèles linguistiques
ParisPour former des modèles de langage avancés, de vastes ensembles de données sont indispensables. Ces ensembles proviennent souvent de diverses sources en ligne et sont fusionnés en grandes collections. Cependant, des détails cruciaux concernant l'origine des données et les restrictions d'utilisation peuvent être perdus en cours de route. Ce manque de transparence pose de sérieux problèmes, pouvant entraîner des problèmes juridiques et éthiques, ainsi qu'une baisse de performance du modèle d'IA. Par exemple, si les données sont mal étiquetées, le modèle risque de mal fonctionner pour certaines tâches. De plus, des données issues de sources inconnues peuvent introduire des biais, conduisant à des prédictions injustes.
Un groupe de chercheurs du MIT et d'autres institutions ont récemment mené une analyse approfondie et ont découvert que :
- Plus de 70% des 1 800 ensembles de données textuelles manquaient d'informations sur les licences.
- Environ 50% comportaient des erreurs dans leurs informations de licence.
- Les créateurs de ces ensembles de données étaient principalement situés dans les pays du Nord global.
- Les restrictions sur les ensembles de données ont considérablement augmenté ces dernières années.
Les chercheurs ont mis au point un outil appelé Explorateur de Provenance des Données. Cet outil génère automatiquement des résumés simples concernant l'auteur du jeu de données, son origine, les licences associées et les modalités d'utilisation.
Lorsque les ensembles de données sont flous ou incomplets, cela peut engendrer des problèmes majeurs. Par exemple, un modèle utilisé pour évaluer des demandes de prêt peut être biaisé si les données ne représentent pas fidèlement tout le monde, conduisant ainsi à des pratiques de prêt injustes. De plus, si ces modèles contiennent des informations confidentielles, ils risquent de devoir être supprimés, entraînant une perte de temps et d'effort considérable.
Le manque de transparence pose plus qu’un simple souci. Des problèmes juridiques peuvent surgir si des ensembles de données dont les termes de licence sont mal compris ou ignorés sont utilisés. Il est essentiel pour la crédibilité et l’efficacité des modèles d’IA que les développeurs et utilisateurs puissent tracer et vérifier leurs données d'entraînement.
L’équipe du MIT a découvert que lorsque les jeux de données sont principalement créés par des personnes aux États-Unis ou en Chine, ils manquent souvent des détails culturels essentiels pour d'autres pays comme la Turquie ou le Brésil. Cela rend difficile l'utilité des modèles d'IA entraînés sur ces jeux de données à l'échelle mondiale.
Les chercheurs pensent que des outils tels que l'Explorateur de Provenance des Données peuvent résoudre les problèmes de transparence. Ces outils offrent des informations claires sur les jeux de données, aidant les développeurs d'IA à prendre des décisions conformes aux normes éthiques et légales. Cela conduit à une technologie IA plus responsable, équitable, efficace et adaptée à son usage prévu.
La provenance des données et la transparence dans le développement de l'IA sont cruciales. À mesure que l'IA s'implante dans de nouveaux domaines, il devient impératif de s'assurer que les données d'entraînement sont bien documentées et obtenues de manière éthique.
L'étude est publiée ici:
http://dx.doi.org/10.1038/s42256-024-00878-8et sa citation officielle - y compris les auteurs et la revue - est
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8Partager cet article