Nowe badanie: generatywna sztuczna inteligencja obniża jakość i różnorodność danych w internecie.
WarsawModele generatywne AI, takie jak GPT-4 od OpenAI oraz Stable Diffusion od Stability AI, potrafią tworzyć tekst, kod, obrazy i wideo. Niemniej jednak proces ich szkolenia wymaga tak dużej ilości danych, że deweloperzy zmagają się z ich niedoborem. W miarę jak rzeczywiste dane stają się coraz trudniejsze do zdobycia, niektórzy proponują wykorzystanie danych syntetycznych do trenowania nowych modeli AI. Chociaż dane syntetyczne są tańsze i dostępne w nieograniczonej ilości, mogą mieć istotne wady.
Grupa zajmująca się przetwarzaniem sygnałów cyfrowych na Uniwersytecie Rice'a odkryła ostatnio poważne zagrożenia związane z tą praktyką. Nazwali ten problem „Zaburzeniem Autofagii Modelu” (MAD), które może prowadzić do stopniowego spadku wydajności sztucznej inteligencji. Zbadali różne scenariusze, aby lepiej to zrozumieć.
- Całkowicie syntetyczna pętla: Generacje szkolone wyłącznie na danych syntetycznych.
- Pętla z syntetycznym wzbogaceniem: Generacje szkolone na mieszance danych syntetycznych i stałego zestawu rzeczywistych danych.
- Pętla z nowymi danymi: Generacje szkolone na danych syntetycznych oraz za każdym razem na nowym zestawie rzeczywistych danych.
W miarę jak stosowanie danych syntetycznych staje się coraz powszechniejsze, modele generatywne mogą zacząć się pogarszać. Bez wystarczającej ilości nowych danych rzeczywistych, modele te generują wyniki, które są mniej dokładne, bardziej podobne do siebie nawzajem i czasami trudne do zrozumienia. Taki spadkowy trend może trwale uszkodzić te modele.
Moim zdaniem, problem ma głębsze skutki. Po pierwsze, rozważmy poleganie na internecie jako źródle danych. Wraz ze wzrostem ilości fałszywych informacji w sieci, przyszłe modele AI mogą nieświadomie korzystać z większej ilości takiego nieprawdziwego contentu. To sprawia, że trudniej jest znaleźć nowe, prawdziwe dane. W efekcie jakość i wiarygodność wyników generowanych przez AI mogą znacznie się obniżyć.
Ludzkie uprzedzenia mogą pogarszać sytuację. Gdy użytkownicy poszukują estetycznie atrakcyjnych wyników, mogą wybierać tylko określone przykłady, co zmniejsza różnorodność danych. To z kolei prowadzi do modeli, które są mniej elastyczne i popełniają więcej błędów.
Zastosowania AI, takie jak diagnostyka medyczna, samochody autonomiczne i prognozowanie finansowe, opierają się na dokładnych i zróżnicowanych danych. Słaba jakość danych może prowadzić do poważnych błędów i spowodować utratę zaufania do systemów AI.
Regulatorzy i firmy technologiczne muszą podjąć szybkie działania w tej sprawie. Powinny opracować surowe przepisy dotyczące ilości fałszywych danych w zestawach treningowych. Ułatwienie dostępu do rzeczywistych danych oraz inwestowanie w lepsze techniki przetwarzania danych mogą pomóc w rozwiązaniu tego problemu.
Przyszłość internetu i poziom zaufania do systemów sztucznej inteligencji sprawiają, że jest to poważny i pilny problem, wymagający szybkich i wspólnych działań.
Badanie jest publikowane tutaj:
https://openreview.net/pdf?id=ShjMHfmPs0i jego oficjalne cytowanie - w tym autorzy i czasopismo - to
Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]Udostępnij ten artykuł