Het genereren van ideeën is belangrijk bij het oplossen van problemen en voor innovatie. Onderzoek van de Stanford University laat zien dat generatieve AI experts van vlees en bloed kan overtreffen in het genereren van ideeën. Het hoeft echter niet zo te zijn dat dit altijd geldt.
De onderzoekers hebben gekeken naar het genereren van nieuwe onderzoeksideeën op het gebied van natuurlijke taalverwerking (NLP). Bij het onderzoek waren meer dan 100 NLP-experts van 36 instellingen betrokken. Zij hebben verder Claude-3-5-sonnet als applicatie gebruikt voor het genereren van ideeën. De onderzoekers vergeleken ideeën gegenereerd door de generatieve AI-toepassing met die van de menselijke experts. De resultaten waren opvallend: AI-gegenereerde ideeën werden beoordeeld als significant nieuwer en ‘opwindender’ dan die van menselijke experts, zonder noemenswaardige verschillen in uitvoerbaarheid. Overigens werden de beste resultaten behaald door AI in combinatie met het rangschikken door een mens.
De onderzoekers hebben de applicatie verschillende technieken laten toepassen zoals retrieval-augmented generation, overgeneration (4000 ideeën per onderwerp) en LLM-gebaseerde ranking. De beoordeling van de ideeën gebeurde blind door de experts. Ze beoordeelden zowel AI- als ideeën gegenereerd door mensen op verschillende criteria, waaronder nieuwheid, opwinding, uitvoerbaarheid, verwachte effectiviteit en algehele kwaliteit. Om vooringenomenheid te voorkomen, werden de schrijfstijlen genormaliseerd met behulp van een LLM, terwijl de oorspronkelijke inhoud behouden bleef.
De onderzoekers wijzen in hun bijdrage ook op beperkingen. Slechts 5% van de AI-gegenereerde ideeën waren uniek. Dit kan duiden op een gebrek aan diversiteit. Bovendien bleek de LLM-gebaseerde evaluatie van ideeën minder effectief dan menselijke beoordelaars, met een nauwkeurigheid van 53,3% tegenover 56,1% voor menselijke inter-beoordelaar consistentie. De onderzoekers merken ook op dat een goed idee uiteraard nog geen garantie is voor een succesvol onderzoeksproject. Verder stellen zij onder meer dat de NLP-experts betrekkelijk korte tijd hadden voor het genereren van ideeën. Als men meer tijd had gehad, was men wellicht op creatievere ideeën gekomen. Uiteraard heeft een generatieve AI-applicaties vanwege de computerkracht maar weinig tijd nodig.
Mijn opmerking
Het onderzoek heeft betrekking op het genereren van ideeën voor onderzoek naar natuurlijke taalverwerking. Het is niet ondenkbaar dat generatieve AI minder goed scoort op andere, specifieke, terreinen onderwerpen. L&D-professionals en docenten zullen minder snel ideeën voor onderzoek willen genereren, maar wel ideeën voor nieuwe werkvormen, voor het ontwikkelen van innovatieve leerconcepten, en dergelijke.Hoe zal de vergelijking dan uitvallen?
Daarnaast hadden de menselijk NLP-experts mogelijk betere ideeën bedacht als zij daar meer tijd voor hadden gehad, of als zij in teams ideeën hadden gegenereerd. De combinatie ‘AI-mens’ blijkt overigens het beste te werken. Je moet m.i. daarbij ook niet onderschatten dat mensen op ideeën kunnen worden gebracht op basis van de output van generatieve AI. Dat ervaar ik zelf dikwijls bij het bedenken van ideeën. De beperkte diversiteit in AI-gegenereerde ideeën en de zwakheden in LLM-gebaseerde evaluatie onderstrepen ook het belang van menselijke expertise hierbij.
Mijn bronnen over (generatieve) artificiële intelligentie
Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.
This content is published under the Attribution 3.0 Unported license.
Geef een reactie