Statistiek onthult: zo detecteert de FSU ChatGPT's valsspelen bij meerkeuzechemie-examens
AmsterdamOnderzoekers aan de Florida State University (FSU) hebben een methode ontwikkeld om bedrog op meerkeuzechemie-examens op te sporen met behulp van ChatGPT. Ze maken gebruik van speciale statistische technieken om de testantwoorden te analyseren en te ontdekken of er AI is ingezet. Deze aanpak vult een leemte in de huidige systemen voor fraudedetectie, die meestal zijn gericht op essays en open vragen in plaats van meerkeuzetoetsen.
Belangrijkste conclusies van dit onderzoek zijn:
- Het Rasch-model werd gebruikt om de waarschijnlijkheid van goede antwoorden te beoordelen op basis van vraagmoeilijkheid en studentenvaardigheden.
- Onderzoekers verzamelden gegevens van vijf semesters aan antwoorden van FSU-studenten en vergeleken deze met antwoorden gegenereerd door ChatGPT.
- ChatGPT vertoonde unieke antwoordpatronen die herkenbaar waren via fit-statistieken en gedragsanalyse.
Het Rasch-model laat zien dat hoe consistent studenten vragen beantwoorden, hun kennisniveau kan onthullen. Hoog presterende studenten beantwoorden zowel moeilijke als makkelijke vragen correct, terwijl laag presterende studenten vooral makkelijke vragen juist hebben. ChatGPT daarentegen geeft onvoorspelbare antwoorden: soms juist op moeilijke vragen, maar fout op simpele vragen, wat afwijkt van menselijk gedrag. Deze inconsistentie kan helpen om te identificeren wanneer een antwoord door AI is gegenereerd.
Dit onderzoek is van groot belang. Naarmate AI-tools zoals ChatGPT vaker in het onderwijs worden gebruikt, is het essentieel om meerkeuze-examens eerlijk te houden. Traditionele methoden, zoals het inzetten van surveillanten en plagiaatdetectie, kunnen mogelijk niet effectief zijn tegen AI-fraude. Het gebruik van geavanceerde statistische technieken kan daarbij helpen. Door patronen te identificeren die specifiek zijn voor AI, zorgen deze methoden ervoor dat de academische standaarden hoog blijven.
Onderzoek toont aan dat door AI gegenereerde content overtuigend kan lijken voor studenten of mensen die het onderwerp niet goed kennen, maar dat de AI de stof zelf niet begrijpt. Dit benadrukt het belang van kritisch denken en diepgaand begrip in het onderwijs. Studenten die AI-tools gebruiken om te spieken, missen waardevolle leerkansen en kunnen te maken krijgen met ernstige academische gevolgen.
Deze bevindingen kunnen ook nuttig zijn voor andere vakken met meerkeuze-examens, niet alleen voor scheikunde. Leraren kunnen deze statistische methoden gebruiken om verschillende gestandaardiseerde toetsen en toelatingsexamens eerlijk en betrouwbaar te houden. De samenwerking tussen Hanson en Sorenson laat zien hoe interdisciplinair werken kan helpen bij het oplossen van complexe onderwijskwesties.
Deze studie benadrukt dat scholen zich voortdurend moeten aanpassen om nieuwe technologieën te kunnen integreren. Naarmate kunstmatige intelligentie geavanceerder wordt, moeten we ervoor zorgen dat onze toepassingen ervan in het onderwijs de integriteit van academisch werk beschermen.
De studie is hier gepubliceerd:
http://dx.doi.org/10.1021/acs.jchemed.4c00165en de officiële citatie - inclusief auteurs en tijdschrift - is
Benjamin Sorenson, Kenneth Hanson. Identifying Generative Artificial Intelligence Chatbot Use on Multiple-Choice, General Chemistry Exams Using Rasch Analysis. Journal of Chemical Education, 2024; 101 (8): 3216 DOI: 10.1021/acs.jchemed.4c00165Deel dit artikel