Nieuwe ontdekking: model autophagy disorder door generatieve AI bedreigt betrouwbaarheid van het internet
AmsterdamGeneratieve AI-modellen zoals GPT-4 van OpenAI en Stable Diffusion van Stability AI kunnen tekst, code, afbeeldingen en video's maken. Echter, het trainen van deze modellen vereist zoveel data dat ontwikkelaars met tekorten te kampen hebben. Aangezien echte werelddata steeds schaarser wordt, stellen sommigen voor om synthetische data te gebruiken voor het trainen van nieuwe AI-modellen. Hoewel synthetische data goedkoper is en in onbeperkte hoeveelheden beschikbaar, kan het aanzienlijke nadelen hebben.
- Volledig synthetische cyclus: Generaties volledig getraind met synthetische data.
- Synthetische augmentatie cyclus: Generaties getraind met een mix van synthetische en een vaste set werkelijke data.
- Verse data cyclus: Generaties getraind met synthetische data en elke keer een nieuwe set werkelijke data.
Met de toenemende populariteit van synthetische data, dreigen generatieve modellen aan kwaliteit in te boeten. Zonder voldoende nieuwe echte data worden de gegenereerde uitkomsten minder nauwkeurig, meer op elkaar lijkend en soms moeilijk te interpreteren. Deze neerwaartse spiraal kan de modellen blijvend beschadigen.
Mijn eigen kijk laat bredere effecten zien. Ten eerste, denk aan het vertrouwen op het internet voor gegevens. Naarmate er meer nepgegevens online komen, zullen toekomstige AI-modellen onbewust meer gebruik maken van deze nepinhoud. Dit maakt het moeilijker om nieuwe, echte gegevens te vinden. Hierdoor kan de algehele kwaliteit en betrouwbaarheid van AI-resultaten aanzienlijk afnemen.
Menselijke vooroordelen kunnen de situatie verergeren. Als gebruikers zoeken naar visueel aantrekkelijke resultaten, selecteren ze mogelijk alleen bepaalde voorbeelden, wat de diversiteit van de gegevens vermindert. Dit leidt tot minder flexibele modellen die vaker fouten maken.
21 november 2024 · 08:55
Nvidia imponeert, maar Aziatische beurs reageert aarzelend op concurrentie.
AI-toepassingen op het gebied van medische diagnostiek, zelfrijdende auto's en financiële prognoses zijn afhankelijk van nauwkeurige en diverse gegevens. Bij gebrekkige datakwaliteit kunnen er ernstige fouten optreden en kan het vertrouwen in AI-systemen afnemen.
Regelgevers en techbedrijven moeten snel handelen. Er moeten strikte regels komen over de hoeveelheid nepdata in trainingssets. Door echte data toegankelijker te maken en te investeren in betere datatechnieken kan het probleem worden aangepakt.
De toekomst van het internet en het vertrouwen in AI-systemen maken MAD tot een serieus en dringend probleem dat snelle en gezamenlijke actie vereist.
De studie is hier gepubliceerd:
https://openreview.net/pdf?id=ShjMHfmPs0en de officiële citatie - inclusief auteurs en tijdschrift - is
Sina Alemohammad, Josue Casco-Rodriguez, Lorenzo Luzi, Ahmed Imtiaz Humayun, Hossein Babaei, Daniel LeJeune, Ali Siahkoohi, Richard G. Baraniuk. Self-Consuming Generative Models Go MAD. International Conference on Learning Representations (ICLR), 2024; [abstract]20 november 2024 · 01:02
AI onderweg: compacte taalmodellen voor betere prestaties op mobiele apparaten
18 november 2024 · 14:36
Precieze gedragsstudies bij muizen dankzij AI: minder dieren en snellere resultaten
Deel dit artikel