Data koers: transparantie tekorten aanpakken bij training van grote taalmodellen

Leestijd: 2 minuten
Door Meindert van der Veen
- in
AI-dataset met vergrootglas en spotlight.

AmsterdamOm grote taalmodellen te trainen, zijn enorme datasets nodig. Deze datasets worden vaak verzameld uit uiteenlopende webbronnen en samengevoegd tot grote verzamelingen. Echter, cruciale details over de herkomst van de data en eventuele gebruiksbeperkingen kunnen tijdens dit proces verloren gaan. Dit gebrek aan duidelijkheid vormt een groot probleem, omdat het kan leiden tot juridische en ethische kwesties en de prestaties van het AI-model kan verminderen. Bijvoorbeeld, als de data verkeerd geëtiketteerd is, kan het model slecht presteren bij bepaalde taken. Bovendien kan data van onbekende bronnen vooringenomenheden met zich meebrengen, wat leidt tot oneerlijke voorspellingen.

Een groep onderzoekers van MIT en andere universiteiten heeft onlangs een grondige evaluatie uitgevoerd en ontdekte dat:

  • Meer dan 70% van de 1.800 tekstdatasets bevatte geen licentie-informatie.
  • Ongeveer 50% had fouten in de vermelde licentie-informatie.
  • Datasetmakers kwamen voornamelijk uit het mondiale noorden.
  • De beperkingen op datasets zijn de laatste jaren aanzienlijk toegenomen.

De onderzoekers hebben een instrument ontwikkeld genaamd de Data Provenance Explorer. Dit hulpmiddel genereert automatisch eenvoudige samenvattingen over wie een dataset heeft gemaakt, waar deze vandaan komt, welke licenties het heeft, en hoe het gebruikt kan worden.

Als datasets onduidelijk of incompleet zijn, kan dit grote problemen veroorzaken. Zo kan een model dat wordt gebruikt om leningaanvragen te beoordelen vooringenomen zijn als de data niet iedereen nauwkeurig vertegenwoordigt. Dit kan leiden tot oneerlijke kredietverlening. Bovendien moeten modellen mogelijk worden verwijderd als ze vertrouwelijke informatie bevatten, wat resulteert in verspilde tijd en moeite.

Het gebrek aan transparantie is meer dan slechts een ongemak. Juridische complicaties kunnen ontstaan wanneer datasets gebruikt worden zonder de juiste licentievoorwaarden te begrijpen of te respecteren. Voor de geloofwaardigheid en effectiviteit van AI-modellen is het essentieel dat ontwikkelaars en gebruikers hun trainingsdata kunnen volgen en verifiëren.

Het team van MIT ontdekte dat datasets die voornamelijk door mensen in de VS of China zijn samengesteld, vaak cruciale culturele details missen die nodig zijn voor andere landen zoals Turkije of Brazilië. Hierdoor kunnen AI-modellen die op deze datasets zijn getraind niet overal even nuttig zijn.

De onderzoekers denken dat hulpmiddelen zoals de Data Provenance Explorer de transparantieproblemen kunnen verminderen. Deze instrumenten geven duidelijke informatie over datasets, wat AI-ontwikkelaars helpt om ethisch verantwoorde en wettelijk conforme keuzes te maken. Dit resulteert in meer verantwoorde AI-technologie die eerlijk, efficiënt en passend voor het beoogde gebruik is.

Dataoorsprong en transparantie in AI-ontwikkeling zijn van groot belang. Naarmate AI in meer domeinen wordt ingezet, is het cruciaal om ervoor te zorgen dat de trainingsdata goed gedocumenteerd en ethisch verkregen is.

De studie is hier gepubliceerd:

http://dx.doi.org/10.1038/s42256-024-00878-8

en de officiële citatie - inclusief auteurs en tijdschrift - is

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
Wetenschap: Laatste nieuws
Lees meer:

Deel dit artikel

Reacties (0)

Plaats een reactie
NewsWorld

NewsWorld.app is dé gratis premium nieuwssite van Nederland. Wij bieden onafhankelijk en kwalitatief hoogwaardig nieuws zonder daarvoor geld per artikel te rekenen en zonder abonnementsvorm. NewsWorld is van mening dat zowel algemeen, zakelijk, economisch, tech als entertainment nieuws op een hoog niveau gratis toegankelijk moet zijn. Daarbij is NewsWorld razend snel en werkt het met geavanceerde technologie om de nieuwsartikelen in een zeer leesbare en attractieve vorm aan te bieden aan de consument. Dus wil je gratis nieuws zonder betaalmuur (paywall), dan ben je bij NewsWorld aan het goede adres. Wij blijven ons inzetten voor hoogwaardige gratis artikelen zodat jij altijd op de hoogte kan blijven!


© 2024 NewsWorld™. Alle rechten voorbehouden.