AI als hulpmiddel bij nakijken: meer problemen dan oplossingen?

Het gebruik van AI voor het beoordelen en geven van feedback op werk van lerenden leidt tot problemen en kost uiteindelijk meer tijd dan traditioneel nakijken. Dit concludeert Patricia Taylor na uitgebreid experimenteren met AI-tools voor het nakijken van schrijfopdrachten. Tegelijkertijd is er ook onderzoek dat laat zien dat Large Language Models (LLMs) juist mogelijkheden hebben als het gaat om feedback.

Patricia Taylor heeft verschillende AI-toepassingen, waar onder ClaudeAI en ChatGPT4, gebruikt voor het geven van feedback op papers. Taylor ontdekte dat AI-gegenereerde feedback vaak oppervlakkig en generiek is, ongeacht de kwaliteit van het werk van lerenden. De AI-toepasingen stimuleerden lerenden consequent een vijf-alinea structuur te gebruiken, zelfs wanneer dit niet gewenst was. De toepassingen hadden moeite met het herkennen van complexere argumentatiestructuren en konden creatieve of risicovolle benaderingen in schrijven niet adequaat beoordelen.

Een kernprobleem is volgens Taylor dat AI-systemen schrijven benaderen als een optelsom van afzonderlijke elementen zoals structuur, taalgebruik en grammatica. In de praktijk zijn deze aspecten volgens haar echter nauw verweven met inhoud, creativiteit en diepgang.

Zij constateert dat AI-toepassingen weliswaar bruikbaar kunnen zijn voor specifieke feedbackvragen, zoals het identificeren van tegenargumenten, maar ook niet effectief zijn in het zelfstandig herkennen van complexe problemen in teksten. Taylor concludeert dat het meer tijd kost om de AI te sturen naar betekenisvolle feedback dan om deze zelf te geven.

Taylor ziet wel mogelijkheden om AI in te zetten als leermiddel. Ze laat lerenden AI gebruiken om kritische vragen te genereren over hun eigen werk. Dit stimuleert de ontwikkeling van verschillende perspectieven, en daarmee de ontwikkeling van kritisch denken. Volgens Taylor is dat het echte doel van schrijfonderwijs.

Zij waarschuwt tenslotte dat het inzetten van AI voor beoordeling ook bestaande vooroordelen over schrijven en schrijfonderwijs kan versterken. Ze pleit ervoor om voorzichtig te zijn met de implementatie van AI in het onderwijs en de focus te houden op het ontwikkelen van kritisch denkvermogen bij lerenden.

Mijn opmerkingen

Patricia Taylor’s bijdrage is gebaseerd op haar persoonlijke ervaring. Er zal dus meer uitgebreid onderzoek gedaan moeten worden naar de waarde van AI-toepassingen voor het geven van feedback op papers van lerenden. Het kan best zijn dat AI-toepassingen hiervoor minder geschikt zijn. Er is echter ook onderzoek gepubliceerd waaruit blijkt dat Large Language Models praktisch net zo goed zijn in het geven van feedback dan mensen. Daarbij gaat het trouwens om open vragen waarop lerenden -basis en voortgezet onderwijs- een kort antwoord geven. Ook ander onderzoek laat zien dat generatieve AI wel degelijk veel potentie heeft voor het geven van feedback (lees hier mijn bespreking van dit onderzoek). De context, zoals aard van de opdracht en het type onderwijs, is mogelijk van invloed zijn op de waarde van generatieve AI bij het beoordelen en het geven van feedback.
Update: Barend last wees me in een reactie op het paper Can large language models provide useful feedback on research papers? A large-scale empirical analysis. Dit onderzoek laat zien dat meer dan de helft (57,4%) van de gebruikers de door GPT-4 gegenereerde feedback nuttig of zeer nuttig vond, terwijl 82,4% het nuttiger vond dan de feedback van sommige menselijke beoordelaars. De onderzoekers melden echter ook beperkingen. Zo richt GPT-4 zich vaak op specifieke aspecten van wetenschappelijke feedback, zoals het toevoegen van experimenten met meer datasets, en heeft GPT-4 vaak moeite om een meer verdiepende kritiek op de opzet van methoden te geven. De onderzoekers stellen ook dat LLM- en menselijke feedback elkaar kunnen aanvullen. Menselijke expertbeoordeling blijft echter de basis van het wetenschappelijke proces en zou dat volgens hen ook moeten blijven. Feedback van LLM’s kan volgens de onderzoekers van nut zijn, vooral wanneer tijdige feedback van experts niet beschikbaar is. Ook is deze feedback vooral in vroege stadia van manuscriptvoorbereiding voor peer-review van nut.

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

This content is published under the Attribution 3.0 Unported license.

Geef een reactie