Rendere trasparenti i dati nascosti: colmare le lacune nella formazione di grandi modelli linguistici

Un nuovo studio scientifico mette in luce problemi di trasparenza nei dataset di addestramento per l'IA, evidenziando questioni importanti legate alle origini e alla qualità dei dati utilizzati.

Tempo di lettura: 2 minuti

Di Maria Astona

- 1 settembre 2024 a 03:19 in

Scienza

'Dataset AI con lente d'ingrandimento e riflettore.'

RomePer addestrare grandi modelli linguistici, abbiamo bisogno di enormi quantità di dati. Questi dati di solito provengono da diverse fonti web e vengono combinati in grandi raccolte. Tuttavia, i dettagli importanti sulla provenienza dei dati e le eventuali restrizioni d'uso possono essere persi durante il processo. Questa mancanza di chiarezza rappresenta un grosso problema perché può portare a questioni legali ed etiche e ridurre le prestazioni del modello di intelligenza artificiale. Ad esempio, se i dati sono etichettati in modo errato, il modello potrebbe non funzionare bene per determinati compiti. Inoltre, i dati da fonti sconosciute possono introdurre bias, portando a previsioni ingiuste.

Un team di ricercatori del MIT e di altre università ha recentemente condotto un'analisi approfondita e ha scoperto che:

Oltre il 70% di 1.800 set di dati testuali non includeva alcune informazioni sulla licenza.
Circa il 50% conteneva errori nelle informazioni sulla licenza.
I creatori dei set di dati erano prevalentemente basati nel nord del mondo.
Le restrizioni sui set di dati sono aumentate significativamente negli ultimi anni.

Gli studiosi hanno sviluppato uno strumento chiamato Esploratore di Provenienza dei Dati. Questo strumento genera automaticamente brevi riepiloghi riguardanti chi ha creato un dataset, la sua origine, le licenze associate e le modalità di utilizzo.

Quando i dataset sono poco chiari o incompleti, possono sorgere gravi problemi. Ad esempio, un modello utilizzato per valutare le richieste di prestito potrebbe risultare parziale se i dati non rappresentano accuratamente tutti i gruppi. Questo potrebbe portare a finanziamenti iniqui. Inoltre, i modelli potrebbero dover essere eliminati se contengono informazioni sensibili, comportando così una perdita di tempo e risorse.

Rethinking net zero: perché i pozzi naturali non bastano a fermare il cambiamento climatico

Il problema della trasparenza va oltre la semplice seccatura. Possono emergere questioni legali se vengono utilizzati set di dati con termini di licenza fraintesi o ignorati. È fondamentale per la credibilità e l'efficacia dei modelli di IA che gli sviluppatori e gli utenti possano rintracciare e verificare i dati di addestramento.

Il team del MIT ha scoperto che quando i set di dati sono principalmente creati da persone negli Stati Uniti o in Cina, spesso mancano dettagli culturali importanti per altri paesi come Turchia o Brasile. Questo rende difficile l'utilizzo dei modelli di intelligenza artificiale basati su questi set di dati in contesti globali.

I ricercatori sono convinti che strumenti come il Data Provenance Explorer possano ridurre i problemi di trasparenza. Questi strumenti offrono informazioni chiare sui dataset, aiutando gli sviluppatori di IA a fare scelte che rispettano standard etici e leggi. Questo porta a una tecnologia di intelligenza artificiale più responsabile, equa, efficiente e adatta al suo scopo.

La provenienza dei dati e la trasparenza nello sviluppo dell'IA sono cruciali. Con l'espansione dell'uso dell'IA in vari settori, diventa fondamentale garantire che i dati di addestramento siano ben documentati e ottenuti in modo etico.

Lo studio è pubblicato qui:

http://dx.doi.org/10.1038/s42256-024-00878-8

e la sua citazione ufficiale - inclusi autori e rivista - è

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8

Scienza: Ultime notizie

Supernova in esplosione tra la vorticosa materia oscura cosmica.

Ieri · 12:34

Condividi questo articolo

Commenti (0)

Pubblica un commento

Rethinking net zero: perché i pozzi naturali non bastano a fermare il cambiamento climatico

Rendere trasparenti i dati nascosti: colmare le lacune nella formazione di grandi modelli linguistici

Un'esplosione stellare potrebbe svelare i misteri della materia oscura nell'universo

Assemblaggi bioispirati: dendroni per strutture di clorofilla ad alte prestazioni tecnologiche

Scoperte nell'autostrada degli ioni: verso ricariche rapide e biosensori ultra-efficienti

Commenti (0)