Kampen mot AI-textigenkänning: Håll jämna steg med snabbt förbättrande språkmodeller

Lästid: 2 minuter
Av Maria Lopez
- i
AI och mänsklig text sammansmälter med hjälp av ett förstoringsglas.

StockholmSedan 2019 har text som genererats av maskiner förvirrat människor. Avancerade verktyg som GPT-2, ChatGPT och Llama gör det svårt att avgöra om en text är skriven av en människa eller en maskin. Dessa verktyg sparar tid och främjar kreativitet, men de kan också användas för att vilseleda människor. Den nuvarande tekniken för att identifiera maskingenererad text förbättras, men resultaten är blandade.

Många kommersiella detektorer påstår att de är mycket exakta, med framgångsgrader upp till 99%. Men oberoende tester av Chris Callison-Burch och hans team visar annorlunda resultat. De skapade en dataset kallad RAID, som innehåller över 10 miljoner dokument skrivna av både AI och människor. Denna dataset hjälper till att kontrollera hur väl textdetektorerna faktiskt fungerar.

Många detektorer har svårt att hantera olika typer av texter eller olika LLM-utdata. Här är några viktiga problem som har identifierats:

  • Detektorer som är tränade på ChatGPT fungerar inte bra med andra modeller som Llama.
  • Specialiserade detektorer, exempelvis de som är tränade på nyhetsartiklar, har svårt att hantera andra typer av innehåll som recept eller kreativt skrivande.
  • Enkla förändringar i texten, som att lägga till mellanslag eller byta ut bokstäver mot symboler, kan lätt kringgå de flesta detektorer.

Nuvarande system för textdetektering är ännu inte helt tillförlitliga. Maskininlärning behöver förbättras för att bättre kunna identifiera texter som genererats av andra maskiner och därmed hålla jämna steg med avancerade språkmodeller. Enkla knep som att ändra bokstäver till liknande symboler kan lätt lura dessa detektorer. På grund av detta är dagens detektionsteknik inte tillräckligt pålitlig för viktiga uppgifter som att säkerställa akademisk ärlighet eller kontrollera onlineinnehåll.

Callison-Burch-teamet vill klargöra och främja nya idéer inom detta område genom att skapa RAID och en offentlig resultattavla. Företag kan använda denna standard för att kontrollera och förbättra sina verktyg. Denna öppna tävling kan leda till betydande förbättringar inom detekteringsteknik.

Huvudproblemet är inte bara att upptäcka AI-genererad text. Vi behöver bättre verktyg för att förstå riskerna och hantera deras effekter. Gemenskapen bör arbeta för att minska skadan som spridning av AI-genererad text kan orsaka. Det innebär inte bara att förbättra detekteringsmetoder utan också att lära användare att bättre förstå digitalt innehåll.

Studien publiceras här:

NaN

och dess officiella citering - inklusive författare och tidskrift - är

NaN
Artificiell Intelligens: Senaste nytt

Dela den här artikeln

Kommentarer (0)

Posta en kommentar
NewsWorld

NewsWorld.app är en gratis premium nyhetssida. Vi tillhandahåller oberoende och högkvalitativa nyheter utan att ta betalt per artikel och utan en prenumerationsmodell. NewsWorld anser att allmänna, affärs-, ekonomiska, tekniska och underhållningsnyheter bör vara tillgängliga på en hög nivå gratis. Dessutom är NewsWorld otroligt snabb och använder avancerad teknik för att presentera nyhetsartiklar i ett mycket läsbart och attraktivt format för konsumenten.


© 2024 NewsWorld™. Alla rättigheter reserverade.