Ny studie: Forskare lär AI att känna igen mänskliga skisser med 85 % noggrannhet
StockholmForskare från University of Surrey och Stanford University har utvecklat en ny metod för att hjälpa AI att förstå mänskliga teckningar. Denna metod fungerar bra även för dem som inte är skickliga på att rita. Modellen kan känna igen skissteckningar med en noggrannhet som nästan motsvarar en människas.
Dr. Yulia Gryaditskaya, en lärare vid Surreys Centre for Vision, Speech, and Signal Processing (CVSSP), påpekade att skissande är ett effektivt sätt att kommunicera visuellt. Hon menar att det ibland kan vara tydligare och mer flexibelt än att prata. Verktyg som hjälper oss att förstå skisser kan förbättra interaktioner mellan människor och datorer samt göra designprocessen snabbare och enklare. Exempel är:
- Söka efter bilder genom att skissa
- Skapa bilder genom att skissa
- Förbättra designprocesser
- Förstärkt visuell kommunikation
Människor i alla åldrar använder teckningar för att utforska idéer och kommunicera. Men AI har haft svårt att förstå skisser. Vanligtvis kräver AI en detaljerad process för att märka varje pixel i en teckning. AI:n lär sig sedan från dessa etiketter.
Den nya metoden utbildade AI:n med en blandning av enkla teckningar och skriftliga förklaringar. AI:n lärde sig att känna igen pixelmönster och jämföra dem med beskrivningarna. Denna strategi gav AI:n en bättre förståelse för bilderna än tidigare metoder. AI:n kunde identifiera och märka drakar, träd, giraffer och andra objekt med en noggrannhet på 85%. Andra modeller som använde märkta pixlar presterade inte lika bra.
21 november 2024 · 15:27
USA dominerar AI-innovation, lämnar Kina bakom i Stanford-rankning
Den nya metoden kan avgöra vilka pennstreck som avser varje objekt. Den fungerar bra med grova skisser gjorda av amatörer och med teckningar av objekt som den inte specifikt tränats på.
Professor Judith Fan, biträdande professor i psykologi vid Stanford University, påpekade att teckning och skrivande är viktiga mänskliga aktiviteter. De hjälper människor att dokumentera vad de ser och tänker. Hon anser att denna forskning är ett steg mot att utveckla AI-system som kan förstå idéer både i bilder och i ord.
Forskningen utförs av Surrey Institute for People-Centred AI inom dess SketchX-program. SketchX försöker förstå hur vi ser saker genom att studera hur vi ritar dem. Professor Yi-Zhe Song, som är en av ledarna för institutet och SketchX-programmet, sa att denna studie visar att AI kan bidra till grundläggande mänskliga aktiviteter som skissande. Genom att förstå enkla teckningar nästan lika bra som människor gör, har tekniken stor potential att öka kreativiteten för alla, oavsett deras konstnärliga färdigheter.
Forskningsresultaten kommer att presenteras på IEEE/CVF-konferensen om datorseende och mönsterigenkänning 2024. Konferensen äger rum i Seattle mellan den 17 och 21 juni 2024.
Studien publiceras här:
http://dx.doi.org/10.48550/arXiv.2312.12463och dess officiella citering - inklusive författare och tidskrift - är
Ahmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya. Open Vocabulary Semantic Scene Sketch Understanding. Submitted to arXiv, 2024 DOI: 10.48550/arXiv.2312.1246320 november 2024 · 17:56
AI lär sig att känna av ytor med hjälp av banbrytande kvantteknik och laserprecision
20 november 2024 · 01:02
Kraftfull AI för mobilen: Kompakta språkmodeller som sparar energi och främjar integritet
18 november 2024 · 14:36
Mindre djur, större precision: ny AI-teknik för avancerade beteendestudier av möss
Dela den här artikeln