Belysa dold data: adressera transparensbrister i träningen av stora språkmodeller
StockholmFör att träna stora språkmodeller krävs omfattande datamängder. Dessa datamängder samlas ofta från olika webbplatser och kombineras till stora samlingar. Tyvärr kan viktiga detaljer om datakällor och eventuella användningsbegränsningar gå förlorade under processen. Denna oklarhet utgör ett betydande problem eftersom det kan leda till juridiska och etiska frågor samt försämra AI-modellens prestanda. Till exempel, om data är felaktigt märkta, kanske modellen inte fungerar väl för vissa uppgifter. Dessutom kan data från okända källor introducera fördomar, vilket leder till orättvisa förutsägelser.
En grupp forskare från MIT och andra universitet genomförde nyligen en noggrann genomgång och upptäckte att:
Över 70 % av de 1 800 textdataseten saknade viss information om licensieringen. Ungefär hälften hade fel i sina licensuppgifter. Dataskaparna bodde huvudsakligen i det globala nord. Begränsningarna gällande datasetsen har ökat avsevärt de senaste åren.
Forskarna utvecklade ett verktyg som heter Data Provenance Explorer. Detta verktyg genererar automatiskt enkla sammanfattningar om vem som skapade en dataset, dess ursprung, vilka licenser det har och hur det kan användas.
När dataset är otydliga eller ofullständiga kan det leda till stora problem. Till exempel kan en modell som används för att bedöma låneansökningar bli partisk om datan inte korrekt representerar alla grupper. Detta kan resultera i orättvis utlåning. Dessutom kan modeller behöva tas bort om de innehåller känslig information, vilket innebär att tid och ansträngning går till spillo.
Transparensproblemet är mer än bara en olägenhet. Juridiska problem kan uppstå om datasamlingar med missförstådda eller ignorerade licensvillkor används. Det är viktigt för trovärdigheten och effektiviteten hos AI-modeller att utvecklare och användare kan följa och verifiera deras träningsdata.
MIT-teamet upptäckte att när dataset huvudsakligen skapas av personer i USA eller Kina, saknas ofta viktiga kulturella detaljer som är nödvändiga för andra länder som till exempel Turkiet eller Brasilien. Detta gör det svårt för AI-modeller som tränats på dessa dataset att vara användbara överallt.
Forskarna anser att verktyg som Data Provenance Explorer kan minska problem med transparens. Dessa verktyg ger tydlig information om datamängder, vilket hjälper AI-utvecklare att fatta beslut som följer etiska normer och lagar. Detta leder till mer ansvarsfull AI-teknologi som är rättvis, effektiv och lämplig för sitt avsedda syfte.
Dataursprung och transparens i AI-utveckling är mycket viktiga. När AI används i fler områden blir det allt viktigare att säkerställa att träningsdata är väl dokumenterad och etiskt anskaffad.
Studien publiceras här:
http://dx.doi.org/10.1038/s42256-024-00878-8och dess officiella citering - inklusive författare och tidskrift - är
Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8Dela den här artikeln