Ny studie: Generativ AI-galenskap kan försämra internetets datakvalitet och mångfald
StockholmGenerativa AI-modeller som GPT-4 av OpenAI och Stable Diffusion av Stability AI kan skapa text, kod, bilder och videor. Men att träna dessa modeller kräver så mycket data att utvecklare står inför bristsituationer. När verkliga data blir svårare att få tag på, föreslår vissa att använda syntetisk data för att träna nya AI-modeller. Även om syntetisk data är billigare och finns i obegränsad mängd, kan den ha betydande nackdelar.
Digital Signal Processing-gruppen vid Rice University har nyligen upptäckt allvarliga risker kopplade till denna praxis. De har kallat problemet "Model Autophagy Disorder" (MAD), vilket kan orsaka en gradvis försämring av AI:s prestanda. Gruppen studerade olika scenarier för att bättre förstå detta fenomen.
- Helt syntetisk krets: Generationer tränade endast med syntetisk data.
- Syntetisk förstärkningskrets: Generationer tränade med en blandning av syntetisk och en fast uppsättning verkliga data.
- Färsk datakrets: Generationer tränade med syntetisk data och en ny uppsättning verkliga data varje gång.
När användningen av syntetiska data blir mer utbredd, kan generativa modeller börja försämras. Utan tillräckligt med ny verklig data producerar dessa modeller resultat som är mindre exakta, mer likartade och ibland svåra att förstå. Denna nedåtgående spiral kan orsaka permanent skada på modellerna.
Jag anser att det finns större konsekvenser. För det första, tänk på att förlita sig på internet för information. När allt mer falsk information hamnar online kommer framtida AI-modeller ovetandes att använda mer av detta falska innehåll. Detta gör det svårare att hitta ny, verklig information. Som en följd kan den övergripande kvaliteten och tillförlitligheten hos AI-resultat minska avsevärt.
21 november 2024 · 15:27
USA dominerar AI-innovation, lämnar Kina bakom i Stanford-rankning
Mänskliga fördomar kan förvärra situationen. När användare letar efter visuellt tilltalande resultat kan de välja endast vissa exempel, vilket minskar datamångfalden. Detta leder till modeller som inte är lika flexibla och gör fler fel.
AI-tillämpningar inom områden som medicinsk diagnostik, självkörande bilar och finansiella prognoser är beroende av noggrann och varierad data. Om datakvaliteten brister kan det leda till allvarliga misstag och få människor att tappa förtroendet för AI-system.
Tillsynsmyndigheter och teknikföretag måste agera snabbt i denna fråga. De bör införa tydliga regler för hur mycket falsk data som får finnas i träningsuppsättningar. Genom att göra verklig data lättillgänglig för alla och investera i bättre datatekniker kan problemet åtgärdas.
Internetets framtid och vår tilltro till AI-system gör MAD till en allvarlig och brådskande fråga som kräver snabb och samordnad insats.
Studien publiceras här:
https://openreview.net/pdf?id=ShjMHfmPs0och dess officiella citering - inklusive författare och tidskrift - är
Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]20 november 2024 · 17:56
AI lär sig att känna av ytor med hjälp av banbrytande kvantteknik och laserprecision
20 november 2024 · 01:02
Kraftfull AI för mobilen: Kompakta språkmodeller som sparar energi och främjar integritet
18 november 2024 · 14:36
Mindre djur, större precision: ny AI-teknik för avancerade beteendestudier av möss
Dela den här artikeln