Kunnen we analyseren of een tekst is geschreven door generatieve AI?

Onderzoek laat zien dat zelfs ervaren docenten moeite hebben met het herkennen van teksten die door lerenden met behulp van generatieve AI zijn geschreven. Ook beschikken we (vooralsnog?) niet over technologie die docenten helpt om op een betrouwbare manier te controleren of teksten gemaakt zijn met behulp van generatieve AI. Volgens Kyle Orland heeft een groep onderzoekers onlangs echter een nieuwe methode ontwikkeld voor het bepalen van het gebruik van ‘large language models’ binnen een grote set wetenschappelijke teksten.

DALL-E: Hier is de afbeelding van ChatGPT vermomd als typemachine, die content genereert in een gezellige, vintage studeerkamer.

Door te analyseren welke “excessieve woorden” significant vaker voorkwamen tijdens nadat ‘large language models’ (LLM’s) op grotere schaal worden gebruikt (2023 en 2024), concluderen de onderzoekers dat minstens 10% van de abstracts in 2024 met behulp van Large Language Modellen is geschreven.

De onderzoekers hebben zich laten inspireren door studies die de impact van de COVID-19 pandemie meten aan de hand van oversterfte in vergelijking met voorgaande jaren. Door een vergelijkbare benadering te gebruiken voor “overmatig woordgebruik” na de brede beschikbaarheid van LLM-applicaties, zoals ChatGPT, eind 2022, ontdekten de onderzoekers een abrupte toename in de frequentie van bepaalde stijlwoorden. Deze toename was volgens hen zeer opvallend, zowel wat betreft kwaliteit als kwantiteit.

Om deze veranderingen in woordenschat te meten, analyseerden de onderzoekers 14 miljoen samenvattingen van papers die zijn gepubliceerd op PubMed tussen 2010 en 2024. Ze volgden de relatieve frequentie van elk woord per jaar en vergeleken de verwachte frequentie (gebaseerd op de trendlijn van vóór 2023) met de daadwerkelijke frequentie in de jaren 2023 en 2024. Ze vonden een aantal woorden die voor 2023 uiterst zeldzaam waren, maar plotseling in populariteit toenamen na de introductie van LLM’s. Woorden zoals “delves” kwamen 25 keer vaker voor in 2024 dan verwacht, terwijl woorden als “showcasing” en “underscores” negen keer vaker voorkwamen. Andere eerder alledaagse woorden werden ook beduidend vaker gebruikt: “potential” nam toe met 4,1 procentpunten, “findings” met 2,7 procentpunten, en “crucial” met 2,6 procentpunten.

De onderzoekers stellen dat dergelijke veranderingen in woordgebruik uiteraard onafhankelijk van LLM-gebruik kunnen plaatsvinden, bijvoorbeeld door de natuurlijke evolutie van taal. Maar zij ontdekten ook dat in de pre-LLM periode zulke grote en plotselinge jaarlijkse stijgingen binnen PubMed alleen werden waargenomen voor woorden gerelateerd aan grote gebeurtenissen op het gebied van wereldgezondheid, zoals “ebola” in 2015 en “coronavirus” in 2020-2022. In de post-LLM periode vonden ze echter honderden woorden met plotselinge en opvallende stijgingen zonder gemeenschappelijke link met wereldgebeurtenissen. Daarbij viel ook op dat het om stijlwoorden ging zoals werkwoorden, bijvoeglijke naamwoorden en bijwoorden.

Deze bevinding is niet volledig nieuw. Het sterk gestegen gebruik van woorden zoals “delve” in wetenschappelijke papers is volgens Orland al eerder geconstateerd. Eerdere studies maakten meestal gebruik van vergelijkingen met zogenaamde “ground truth” menselijke schrijfvoorbeelden of lijsten met vooraf gedefinieerde LLM-markers die buiten de studie waren verkregen. In dit onderzoek dient de set samenvattingen van vóór 2023 als een effectieve controlegroep om aan te tonen hoe de woordkeuze in het algemeen is veranderd in het post-LLM-tijdperk.

Orland schrijft dat door honderden zogenaamde “markerwoorden” te markeren die significant vaker voorkwamen na de LLM-periode, de onderzoekers konden schatten dat minstens 10% van de post-2022 papers op PubMed deels met LLM-assistentie zijn geschreven. Dit percentage kan zelfs hoger zijn omdat samenvattingen zonder markerwoorden niet in de telling zijn meegenomen.

Deze percentages variëren aanzienlijk tussen verschillende subsets van papers. Papers uit landen zoals China, Zuid-Korea en Taiwan bevatten 15% van de tijd LLM-markerwoorden. Een mogelijke verklaring is dat LLM’s mogelijk gebruikt worden door auteurs die niet oorspronkelijk Engelstalig zijn, ten behoeve van het bewerken van Engelse teksten. Aan de andere kant kunnen ‘moedertaalsprekers’ volgens de auteur beter in staat zijn om onnatuurlijke stijlwoorden uit LLM-uitvoer te verwijderen, waardoor hun LLM-gebruik moeilijker te detecteren is.

Volgens de onderzoekers is het detecteren van LLM-gebruik belangrijk, aangezien LLM’s berucht zijn om het verzinnen van referenties en het maken van onnauwkeurige samenvattingen en valse claims. Naarmate kennis van LLM-markerwoorden toeneemt, kunnen menselijke redacteuren volgens Orland beter worden in het verwijderen van deze woorden uit gegenereerde teksten. Het is zelfs mogelijk dat toekomstige LLM’s zelf deze frequentieanalyse gaan uitvoeren om hun output beter te maskeren als menselijk.

Mijn opmerkingen

In mijn presentaties gebruik ik weleens het voorbeeld van Delftse onderzoekers die tot een vergelijkbare conclusie zijn gekomen op basis van een analyse van scripties van de TU Delft. In het hierboven beschreven onderzoek is sprake van een meer uitgebreide analyse. Als je Nederlandstalige teksten leest, dan zie je ook al snel of generatieve AI erbij is gebruikt of niet. Bij mij gaat een belletje rinkelen als ik woorden als ‘cruciaal’ of ‘diepgaand’ tegenkom.

Als het inderdaad mogelijk is om te detecteren of een tekst geschreven is door een generatieve AI-tool, dan kun je hiervoor ook tooling ontwikkelen. Zouden docenten hiermee dan geholpen zijn bij het beoordelen van schrijfwerk van lerenden? Volgens mij niet. Lerenden kunnen weer tools gebruiken die gegenereerde teksten herschrijven en LLM-markerwoorden zullen verwijderen.

Belangrijker is echter dat, ondanks dat het mogelijk is om te detecteren of een generatieve AI-toepassing gebruikt is voor het produceren van tekst, dit nog niets zegt over de vraag of dit acceptabel is. Wat is er mis mee als een student ChatGPT of Claude vraagt een abstract te schrijven van een scriptie die de student verder zelf heeft geschreven? Of als een student generatieve AI vraagt om eigen teksten te verbeteren? Ik heb lang geleden tegen betaling een vertaler ingeschakeld om een wetenschappelijk artikel wat betreft Engelse taal te verbeteren. Generatieve technologie kan wellicht een einde helpen maken aan de voorsprong die Engelstalig sprekende wetenschappers hebben ten opzichte van niet-Engelstalige onderzoekers bij wetenschappelijke tijdschriften waar de Engelse taal nog steeds dominant is.

Generatieve AI zal in het dagelijks leven als samenwerkingspartner steeds normaler worden. Bepaal daarom op voorhand wat bij opdrachten een passend gebruik van generatieve AI is, en durf ook de manier van (formatief en summatief) toetsen en beoordelen aan te passen. Persoonlijk vind ik het gebruik van generatieve AI bij persoonlijke berichten eerder storend, dan bij zakelijke bijdragen zoals blogposts als deze (zoals gebruikelijk heb ik generatieve AI gebruikt bij het maken van de samenvatting, maar niet bij ‘Mijn opmerkingen’).

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Geef een reactie