Over het verantwoord gebruik van grote taalmodellen bij peer review

James Zou heeft voor Nature een artikel geschreven over het gebruik van ‘large language models’ bij peer review van onderzoeksartikelen. Deze bijdrage is m.i. ook relevant voor leren, opleiden en onderwijs.

DALL-E: An illustration of a software application on a computer screen, displaying a feature for summarizing text.Zou concludeert op basis van eigen onderzoek dat momenteel 7-17% van de peer reviews op het gebied van computerwetenschappen door ‘AI’ wordt geschreven. Het onderzoek van Zou en zijn Stanford University-collega’s toont aan dat AI-geschreven reviews herkenbaar zijn aan hun formele toon en wijdlopigheid. Woorden als ‘commendable’ en ‘meticulous’ komen tegenwoordig tien keer vaker voor in peer reviews dan vóór 2022. Nota bene: bij de TU Delft hebben ze geconstateerd dat samenvattingen van masterscripties sinds eind 2022 veranderen, omdat bepaalde woorden nu veel vaker worden gebruikt.

Tijdgebrek lijkt een belangrijke reden te zijn voor het gebruik van AI bij peer reviews. Volgens Zou wordt dit vermoeden bevestigd door de observatie dat AI-gegenereerde tekst vaker voorkomt in reviews die vlak voor de deadline zijn ingediend. Hij en zijn college-onderzoekers constateren dat de door AI gegenereerde reviews vaak oppervlakkig zijn, weinig specifieke verwijzingen naar het manuscript bevatten en referenties missen. De huidige generatie LLMs kan volgens hem menselijke experts niet vervangen. Deze modellen zijn volgens de auteur niet in staat meer verdiepende wetenschappelijke redeneringen te voeren en genereren soms onzinnige antwoorden. Vooral als het gaat om methodologische kritiek, zakken LLM’s door het ijs.

James Zou schrijft dat het gebruik van AI-toepassingen beperkt zou moeten blijven tot specifieke taken zoals taal- en grammaticacorrectie, het beantwoorden van eenvoudige vragen en het identificeren van relevante informatie. AI-assistenten zouden  reviewers moeten helpen hun suggesties concreter te maken. Verder zou je AI-toepassingen moeten gebruiken om gerelateerde papers te vinden en samen te vatten ter ondersteuning van redacteuren.

De output van een AI-toepassing kun je daarnaast het beste beschouwen als startpunt, niet als eindresultaat van een review. AI-detectiesoftware is niet echt betrouwbaar vanwege de vele onterechte meldingen (‘false positives’).

Het is volgens Zou belangrijk om meer menselijke interactie tijdens het reviewproces te stimuleren, bijvoorbeeld door gebruik te maken van platforms zoals OpenReview. Organisaties moeten daarnaast duidelijke richtlijnen opstellen voor het gebruik van AI bij het beoordelen van werk, zodat alle betrokkenen weten wat wel en niet is toegestaan. Verder is het van belang dat reviewers open zijn over wanneer en hoe ze AI hebben gebruikt tijdens het beoordelingsproces. Tot slot zouden er interactieve platforms ontwikkeld moeten worden die het gebruik van AI automatisch kunnen beperken tot vooraf bepaalde specifieke taken, zodat oneigenlijk gebruik wordt voorkomen.

Mijn opmerkingen

James Zou laat m.i. zien dat er grote parallellen zijn tussen het gebruik van AI-toepassingen voor het schrijven van reviews, en het gebruik van AI-toepassingen voor onderwijs- en leeractiviteiten waar schrijven aan te pas komt. Het reviewproces van wetenschappelijke artikelen vertoont bijvoorbeeld sterke overeenkomsten met het geven van feedback op werkstukken en opdrachten van lerenden. De beschreven problemen met AI-gegenereerde reviews – zoals oppervlakkigheid, gebrek aan specifieke verwijzingen en beperkte diepgang in methodologische kritiek – kunnen bij peer feedback ook voorkomen. Ik weet overigens niet of dat al is onderzocht. Er is wel onderzoek gedaan naar het gebruik van AI-toepassingen bij het schrijven van essays zelf.

Daar komt bij dat het geven van feedback vooral ook leeractiviteit is van de feedbackgever zelf. Als je dat volledig uitbesteedt aan generatieve AI dan wordt het leereffect geringer. Het is m.i. aan te raden om bijvoorbeeld eerst zelf feedback te formuleren en juist daar feedback op te vragen.

De genoemde tijdsdruk die leidt tot het gebruik van AI bij reviews is ook zeer herkenbaar in het onderwijs. Docenten staan vaak onder grote werkdruk bij het nakijken en beoordelen van opdrachten. De verleiding om AI in te zetten als tijdbesparende oplossing is daardoor groot. Het is m.i. geen probleem als docenten generatieve AI inzetten voor het formuleren van feedback, mits zij de output inderdaad gebruiken als startpunt en als zij geen vertrouwelijke informatie uploaden. Ook zou je als feedbackgever transparant moeten zijn over het gebruik van generatieve AI bij het geven van feedback.

Het pleidooi voor het ontwikkelen van richtlijnen en systemen voor verantwoord AI-gebruik is eveneens relevant voor onderwijsinstellingen.

This content is published under the Attribution 3.0 Unported license.

Delen

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *