Rendere trasparenti i dati nascosti: colmare le lacune nella formazione di grandi modelli linguistici
RomePer addestrare grandi modelli linguistici, abbiamo bisogno di enormi quantità di dati. Questi dati di solito provengono da diverse fonti web e vengono combinati in grandi raccolte. Tuttavia, i dettagli importanti sulla provenienza dei dati e le eventuali restrizioni d'uso possono essere persi durante il processo. Questa mancanza di chiarezza rappresenta un grosso problema perché può portare a questioni legali ed etiche e ridurre le prestazioni del modello di intelligenza artificiale. Ad esempio, se i dati sono etichettati in modo errato, il modello potrebbe non funzionare bene per determinati compiti. Inoltre, i dati da fonti sconosciute possono introdurre bias, portando a previsioni ingiuste.
Un team di ricercatori del MIT e di altre università ha recentemente condotto un'analisi approfondita e ha scoperto che:
- Oltre il 70% di 1.800 set di dati testuali non includeva alcune informazioni sulla licenza.
- Circa il 50% conteneva errori nelle informazioni sulla licenza.
- I creatori dei set di dati erano prevalentemente basati nel nord del mondo.
- Le restrizioni sui set di dati sono aumentate significativamente negli ultimi anni.
Gli studiosi hanno sviluppato uno strumento chiamato Esploratore di Provenienza dei Dati. Questo strumento genera automaticamente brevi riepiloghi riguardanti chi ha creato un dataset, la sua origine, le licenze associate e le modalità di utilizzo.
Quando i dataset sono poco chiari o incompleti, possono sorgere gravi problemi. Ad esempio, un modello utilizzato per valutare le richieste di prestito potrebbe risultare parziale se i dati non rappresentano accuratamente tutti i gruppi. Questo potrebbe portare a finanziamenti iniqui. Inoltre, i modelli potrebbero dover essere eliminati se contengono informazioni sensibili, comportando così una perdita di tempo e risorse.
Il problema della trasparenza va oltre la semplice seccatura. Possono emergere questioni legali se vengono utilizzati set di dati con termini di licenza fraintesi o ignorati. È fondamentale per la credibilità e l'efficacia dei modelli di IA che gli sviluppatori e gli utenti possano rintracciare e verificare i dati di addestramento.
Il team del MIT ha scoperto che quando i set di dati sono principalmente creati da persone negli Stati Uniti o in Cina, spesso mancano dettagli culturali importanti per altri paesi come Turchia o Brasile. Questo rende difficile l'utilizzo dei modelli di intelligenza artificiale basati su questi set di dati in contesti globali.
I ricercatori sono convinti che strumenti come il Data Provenance Explorer possano ridurre i problemi di trasparenza. Questi strumenti offrono informazioni chiare sui dataset, aiutando gli sviluppatori di IA a fare scelte che rispettano standard etici e leggi. Questo porta a una tecnologia di intelligenza artificiale più responsabile, equa, efficiente e adatta al suo scopo.
La provenienza dei dati e la trasparenza nello sviluppo dell'IA sono cruciali. Con l'espansione dell'uso dell'IA in vari settori, diventa fondamentale garantire che i dati di addestramento siano ben documentati e ottenuti in modo etico.
Lo studio è pubblicato qui:
http://dx.doi.org/10.1038/s42256-024-00878-8e la sua citazione ufficiale - inclusi autori e rivista - è
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8Condividi questo articolo