Generatieve AI en beoordelen: mogelijkheden en beperkingen (bespreking onderzoekspaper)

Onderzoekers van een aantal Britse universiteiten hebben een analyse gemaakt van de prestaties van ChatGPT en -toen nog- Google Bard bij het beoordelen van bèta/technische vakken. Het doel was om de potentiële impact op het leren en de ontwikkeling van studenten te begrijpen. Het onderzoek laat zien waar generatieve AI goed in is, en waar niet in. Aan het eind van deze bijdrage vind je weer diverse links naar artikelen over generatieve AI.

DALL-E: An image depicting a researcher analyzing the effectiveness of AI and video on educational outcomes.

De onderzoekers hebben drie casestudies rond beoordelingen uitgevoerd op de vakgebieden data analytics, data science en constructiemanagement. Daarbij hebben zij ChatGPT 4 en Google Bard opdrachten laten maken. Op basis hiervan concluderen zij dat generatieve AI (GenAI) variërend presteert bij deze verschillende disciplines.

De resultaten van twee case studies laten zien dat deze GenAI-tools goed presteren op het gebied van communicatie, vakinhoudelijke kennis, probleemoplossend vermogen, analytisch denken en discipline-afhankelijk kritisch denken. De onderzoekers benadrukken dat deze vaardigheden van groot belang zijn en dat wordt beoogd deze vaardigheden te meten door de beoordelingen.Op het gebied van data analytics, data science zijn deze tools bijzonder effectief, mede dankzij de beschikbaarheid van onder meer publiek beschikbare open leermiddelen waar de taalmodellen onder meer mee zijn getraind. De tools genereren daarom relevante en hoofdzakelijk accurate content zonder dat mensen daar veel aan hoeven te doen.

Op het gebied van constructiemanagement zijn echter minder online leermaterialen beschikbaar, waar de taalmodellen mee getraind zijn, worstelen de tools met complexe denkvaardigheden. De onderzoekers stellen dan uiteraard dat het type en de hoeveelheid trainingsdata waarover de AI-systemen beschikken, hun effectiviteit sterk beïnvloeden.

De onderzoekers schrijven eveneens dat onethisch gebruik van GenAI-tools de ontwikkeling vaardigheden om te leren en inzetbaar te zijn kan beperken, vooral op vakgebieden als data analytics en data science. De onderzoekers veronderstellen dat lerenden de leerstof niet meer verwerken als zij GenAI-tools kunnen gebruiken bij beoordelingen. De accuratesse van de oplossingen die deze systemen bieden kunnen volgens de onderzoekers de kritische denkvaardigheden van studenten ondermijnen. De mogelijkheden van GenAI-tools bij beoordelen zijn ook afhankelijk van de aard van de beoordelingen. Meer projectgebaseerde assessments vormen grotere uitdagingen voor deze tools.

De onderzoekers benadrukken ook het belang van verder onderzoek in andere disciplines om de generaliseerbaarheid van het gebruik van deze tools bij beoordelen te verbeteren. Ze adviseren dringend dat docenten de beoordelingsinstrumenten herontwerpen met het oog op de mogelijkheden die studenten hebben om informatie uit GenAI-tools te genereren.

De onderzoekers formuleren tenslotte ook aanbevelingen. Het onderwijs zou haast moeten maken met de integratie van GenAI-systemen en academische AI-contentdetectoren binnen applicaties voor plagiaatdetectie. Dit is nodig omdat bestaande AI-contentdetectoren nog in ontwikkeling zijn en moeite hebben om consistent AI-gegenereerde content te onderscheiden van door mensen geschreven teksten. Docenten moeten zich vertrouwd maken met GenAI-systemen en authentieke assessments te ontwerpen die het ongeoorloofd gebruik van AI-oplossingen door studenten voorkomen. Dit kan volgens de auteurs onder meer door beoordelingen contextueel te ontwerpen en presentaties te gebruiken als bewijs van leeruitkomsten. Bovendien raden zij aan om reflectieve benaderingen van leren bij beoordelingen te gebruiken. Studenten reflecteren dan kritisch op de AI-output.

Als het gaat om betrokkenheid van studenten adviseren zij het gebruik van GenAI-systemen als interactief hulpmiddel tijdens onderwijssessies. Dit kan bijvoorbeeld door studenten samen te laten werken in groepsopdrachten waarbij ze AI-oplossingen vergelijken met case studies of door hen AI-gegenereerde oplossingen te laten bekritiseren tijdens bijeenkomsten. Ook kunnen vragenbanken nuttig zijn voor snelle formatieve quizzen.

Mijn opmerkingen

Ik heb al eerder verzucht dat onderzoekers m.i. te veel kijken naar de vraag of generatieve AI-toepassingen in staat zijn zelfstandig opdrachten te maken. Je zou veel meer moeten kijken naar de combinatie van mens met AI. Het pleidooi voor kritisch herzien van de manier van beoordelen deel ik. Dat vind ik logischer dan investeren in de doorontwikkeling van plagiaatdetectie. Op dit moment zijn tools voor plagiaatdetectie onbetrouwbaar om te analyseren of teksten geschreven zijn door generatieve AI. De tools genereren immers steeds andere teksten (die je trouwens wel vaak met het blote oog herkent). Daarnaast gaan deze tools ook uit van wantrouwen. Interessant is ook de tabel waarin onderzoekers vergelijkbare onderzoeken op dit gebied presenteren.

Andere bronnen over generatieve AI

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Geef een reactie