Odkrywając ukryte dane: Zagadnienia przejrzystości w zbiorach danych dla dużych modeli językowych

Czas czytania: 2 minut
Przez Pedro Martinez
- w
Zbiór danych związany ze sztuczną inteligencją, obserwowany przez lupę i oświetlony reflektorem.

WarsawAby trenować duże modele językowe, potrzebujemy ogromnych zbiorów danych. Zazwyczaj pochodzą one z różnych źródeł internetowych i są łączone w duże kolekcje. Jednak w tym procesie mogą zostać zagubione ważne informacje o pochodzeniu danych i ograniczeniach dotyczących ich użycia. Brak przejrzystości stanowi duży problem, ponieważ może prowadzić do kwestii prawnych i etycznych oraz obniżać wydajność modelu AI. Na przykład, jeśli dane są źle oznaczone, model może nie działać prawidłowo w określonych zadaniach. Dodatkowo, dane z nieznanych źródeł mogą wprowadzać uprzedzenia, co prowadzi do niesprawiedliwych prognoz.

Zespół badaczy z MIT oraz innych uczelni przeprowadził niedawno wnikliwą analizę i odkrył, że:

Ponad 70% z 1800 zestawów danych tekstowych nie zawierało pełnych informacji o licencjach. Około połowa zawierała błędy w tych informacjach. Twórcy zestawów danych pochodzili głównie z północnej części świata. W ostatnich latach zauważalnie wzrosły ograniczenia dotyczące zestawów danych.

Naukowcy opracowali narzędzie zatytułowane Data Provenance Explorer. To narzędzie automatycznie tworzy proste podsumowania dotyczące tego, kto stworzył zestaw danych, skąd pochodzi, jakie licencje go dotyczą oraz w jaki sposób można go wykorzystać.

Gdy zestawy danych są niejasne lub niekompletne, może to prowadzić do poważnych problemów. Na przykład model używany do oceny wniosków kredytowych może być stronniczy, jeśli dane nie odzwierciedlają dokładnie wszystkich grup. Może to prowadzić do niesprawiedliwego udzielania kredytów. Ponadto, modele mogą wymagać usunięcia, jeśli zawierają prywatne informacje, co skutkuje stratą czasu i wysiłku.

Problem przejrzystości to nie tylko niedogodność. Mogą pojawić się kwestie prawne, jeśli wykorzystywane są zbiory danych z niezrozumianymi lub zignorowanymi warunkami licencyjnymi. Dla wiarygodności i efektywności modeli AI kluczowe jest, aby deweloperzy i użytkownicy mogli śledzić i potwierdzać źródło swoich danych treningowych.

Zespół z MIT odkrył, że gdy zbiory danych są głównie tworzone przez osoby z USA lub Chin, często pomijają istotne szczegóły kulturowe wymagane w innych krajach, takich jak Turcja czy Brazylia. To powoduje, że modele AI szkolone na takich danych są mało przydatne na całym świecie.

Badacze są zdania, że narzędzia takie jak Data Provenance Explorer mogą zmniejszyć problemy z przejrzystością. Takie narzędzia dostarczają jasnych informacji o zbiorach danych, co pomaga twórcom AI podejmować decyzje zgodne z normami etycznymi i prawem. W rezultacie powstaje bardziej odpowiedzialna technologia AI, która jest sprawiedliwa, efektywna i odpowiednia do zamierzonego zastosowania.

Pochodzenie danych i przejrzystość w rozwoju sztucznej inteligencji odgrywają bardzo istotną rolę. W miarę jak AI znajduje zastosowanie w coraz większej liczbie dziedzin, kluczowe staje się zapewnienie, aby dane treningowe były dobrze udokumentowane i pozyskiwane w etyczny sposób.

Badanie jest publikowane tutaj:

http://dx.doi.org/10.1038/s42256-024-00878-8

i jego oficjalne cytowanie - w tym autorzy i czasopismo - to

Shayne Longpre, Robert Mahari, Anthony Chen, Naana Obeng-Marnu, Damien Sileo, William Brannon, Niklas Muennighoff, Nathan Khazam, Jad Kabbara, Kartik Perisetla, Xinyi Wu, Enrico Shippole, Kurt Bollacker, Tongshuang Wu, Luis Villa, Sandy Pentland, Sara Hooker. A large-scale audit of dataset licensing and attribution in AI. Nature Machine Intelligence, 2024; 6 (8): 975 DOI: 10.1038/s42256-024-00878-8
Nauka: Najnowsze wiadomości
Czytaj dalej:

Udostępnij ten artykuł

Komentarze (0)

Opublikuj komentarz