ChatGPT kan nu redeneren (maar voert niet alle taken beter uit)

Eind verleden week is met veel bombarie een nieuwe versie van ChatGPT gelanceerd (o1-preview en o1-mini). Deze versie is nu in staat om te redeneren. In deze blogpost licht ik toe hoe dit werkt, en geef ik aan dat deze versie niet voor alle taken geschikter is dan de voorganger of, bijvoorbeeld, Claude 3.5. Sonnet. En zou je deze applicatie kunnen gebruiken voor het analyseren van vraagstukken van een organisatie?

De nieuwe modellen van OpenAI’s o1-modellen maken gebruik van ‘reinforcement learning‘ en ‘redeneer tokens’ waardoor de o1-modellen complexe problemen oplossen voordat ze antwoorden genereren. ‘Tokens’ zijn de kleinste eenheid van tekst die een model kan verwerken.

De modellen beschikken over een indrukwekkende contextvenster van 128.000 tokens, waarbij o1-preview tot 32.768 tokens per voltooide opdracht kan genereren en o1-mini zelfs tot 65.536 tokens. Deze limieten omvatten zowel zichtbare tokens van het resultaat als de verborgen tokens die gebruikt zijn bij het redeneren. Het vernieuwende aspect van deze modellen ligt in hun vermogen om een verborgen gedachtegang (‘chain of thought‘) te gebruiken, waarbij problemen in stappen worden opgedeeld. Dit simuleert redeneren, dat normaliter is voorbehouden aan mensen. Deze toepassing moet prestaties bij analytische taken aanzienlijk verbeteren.

De ‘redeneer tokens’ helpen de modellen om beter na te denken over vragen. Ze bekijken een vraag van verschillende kanten en bedenken meerdere manieren om te antwoorden. Dit werkt een beetje zoals een schaker die vooruit denkt over verschillende zetten. De modellen leren door oefening om steeds beter problemen op te lossen. Ze doen dit niet alleen tijdens het trainen, maar ook als ze echt aan het werk zijn. Zo kunnen ze ter plekke verschillende strategieën uitproberen om de beste oplossing te vinden. Redeneren via de ‘chain of thought‘ biedt volgens de ontwikkelaars ook nieuwe mogelijkheden voor afstemming en veiligheid.

Cijfers over prestaties van de o1-modellen zijn opmerkelijk. De modellen behalen onder andere het 49e percentiel in de Internationale Informatica Olympiade van 2024 en een score van 83,3% op het AIME-wiskundeexamen. Op het codeplatform Codeforces overtreffen ze 89% van de menselijke deelnemers. Dit is een aanzienlijke verbetering voor dit type taken, ten opzichte van eerdere modellen.

Technische uitdagingen zijn het balanceren van vooraf getrainde kennis met nieuwe redeneringen, het beheren van computationele kosten en het bepalen wanneer het redeneringsproces moet stoppen. Verder zijn de o1-modellen momenteel alleen beschikbaar voor ChatGPT Premium- en Teams-gebruikers, met wekelijkse limieten van 30 berichten voor o1-preview en 50 voor o1-mini. Een andere belangrijke beperking op dit moment is dat je deze versie niet online kunt laten zoeken en geen bestanden kunt uploaden om te analyseren. Dit zal, vermoed ik, in een volgende versie wel mogelijk worden.

(De samenvatting is grotendeels gebaseerd op de nieuwsbrief van AlphaSignal).

Anders ‘prompten’

Wat verder opvalt, is dat je op een andere manier opdrachten moet gebruiken. Bij de andere grote taalmodellen moet je uitgebreide ‘prompts’ gebruiken en het taalmodel bij voorkeur een persona laten ‘spelen’. Nu geeft OpenAI als tips:

Houd instructies kort en duidelijk: Deze modellen begrijpen en beantwoorden korte, heldere opdrachten goed. Je hoeft niet uitgebreid uit te leggen.
Vraag niet om stap-voor-stap uitleg: De modellen denken zelf al na. Je hoeft niet te vragen om “stap voor stap” te denken of hun redenering uit te leggen.
Gebruik markeringen voor duidelijkheid: Zet verschillende delen van je vraag tussen aanhalingstekens of gebruik kopjes. Zo begrijpt het model beter welk deel wat betekent.
Geef niet te veel extra informatie: Als je extra context geeft, kies dan alleen wat echt belangrijk is. Te veel informatie kan het antwoord ingewikkelder maken dan nodig.

Dit maakt het gebruik van grote taalmodellen wel complexer. Je moet steeds nadenken over wat voor type prompt je moet gebruiken.

Het is namelijk niet zo dat de nieuwe taalmodellen in plaats van toepassingen zoals ChatGPT 4-o of Claude 3.5 Sonnet komen. De nieuwe taalmodellen zijn beter in het oplossen van complexe vraagstukken op het gebied van wiskunde, natuurkunde of informatica. Als het gaat om schrijfwerk zoals het maken van samenvattingen of het herschrijven van teksten, dan zijn andere applicaties meer geschikt. Dat blijkt ook uit de evaluatie van OpenAI naar voorkeuren van mensen naar ChatGPT 4-o versus o1:

Human preferences language models — Bron: OpenAI, https://openai.com/index/learning-to-reason-with-llms/

Mijn eerste ervaringen

Ik heb een aantal keren opdrachten gegeven aan o1-preview en de output ook vergeleken met Claude 3.5 Sonnet. Over het algemeen scoren ze vergelijkbaar. Dat kan meerdere redenen hebben:

Ik kwam er pas gisteren achter dat je verschillend moet prompten (zie hierboven). Ik gebruikte dus de traditionele prompt.
Ik ben geen natuurkundige, wiskundige of informatica-specialist. De vraagstukken die ik gebruikte, zijn waarschijnlijk minder geschikt voor ChatGPT o1-preview.

Vanochtend heb ik de volgende prompt gebruikt:

Large language models have some limitations. First, using them takes a lot of energy. Secondly, they regularly reproduce biases because the data they are trained on contain many biases. These language models are highly evolving. Yet they do not really improve these two problems. Argue why developers are not solving these problems. Then describe how developers of large language models can solve these problems.

Het resultaat was meer volledig dan de output Claude. Bij een andere vraag naar de belangrijkste oorzaken van mislukte implementaties van leermanagement systemen produceerden Claude en ChatGPT o1-preview analyses die elkaar overlapten en aanvulden. Bij Claude heb ik een uitgebreide prompt gebruikt, bij ChatGPT o1-preview een beperkte prompt.

Generatieve AI voor probleemanalyse

Onlangs schreef ik over een onderzoek waaruit bleek dat generatieve AI -binnen een specifieke context- beter was in het genereren van ideeën voor het oplossen van problemen dan mensen. In een WhatsApp-groep krijg ik toen de vraag of je generatieve AI ook zou kunnen gebruiken voor het analyseren van grondoorzaken van problemen.

Nu verzorg ik in het kader van de FCe bacheloropleiding over e-learning al vele jaren een gastcollege over de implementatie van e-learning. In het kader daarvan vraag ik cursisten om op basis van een aantal artikelen een analyse te maken van een mislukt ‘i-pad-project’ in Californië. Ik heb die artikelen daarom in een document geplaatst. Ik heb vervolgens Claude 3.5 Sonnet met behulp van een uitgebreide prompt gevraagd een analyse te maken van de belangrijkste oorzaken van deze mislukking, op basis van het document.

De prompt was:

Jij bent expert op het gebied van de implementatie van technologie voor leren, opleiden en onderwijs. Jij bent gevraagd om een analyse te maken van de belangrijkste oorzaken van een mislukt project waarbij geprobeerd is om i-pads binnen een schooldistrict in Californië in te voeren. Dit grootschalig ’iPad’-project is voortijdig stopgezet. Je staat bekend om je vermogen om op basis van jouw expertise op het gebied van implementatie van nieuwe technologie binnen het onderwijs een analyse te maken van de belangrijkste oorzaken van een dergelijke mislukking. Je beschikt ook over het vermogen het meest gedetailleerde inzicht te presenteren aan een breed publiek dat door iedereen begrepen kan worden. De doelgroep van de analyse bestaat uit L&D-adviseurs en beleidsmedewerkers van onderwijsinstellingen. Bijgevoegd document bevat de volgende berichten over dit iPad-project: The LA School iPad Scandal: What You Need To Know. LAUSD board to vote on $6.4 million settlement proposal with Apple over iPad software $1.3 billion L.A. Schools’ iPad dream ends after FBI investigation What Schools Must Learn From LA’s iPad Debacle L.A. schools to receive $6.4 million from botched iPad deal

 Schrijf de analyse van maximaal 800 woorden, uitsluitend op basis van deze berichten en jouw expertise op het gebied van implementatie. Zorg ervoor dat de analyse logisch, eenvoudig en goed gestructureerd is en vermijd oppervlakkig schrijven, algemeenheden en beschrijvingen op metaniveau zoals “Het artikel bespreekt”, “Het belicht” en “De tekst onderzoekt ook”. Schrijf in het Nederlands, niveau B2. Houd rekening met culturele en taalkundige eigenheden van Nederland zoals directheid, en een pragmatische, nuchtere en realistische toon.

Het resultaat van de analyse was goed, en vergelijkbaar met het ‘model antwoord’ dat ik tijdens het college gebruik.

Op deze manier kun je dus generatieve AI gebruiken om grondoorzaken van vraagstukken te vinden. Toch zijn er m.i. twee belangrijke beperkingen:

⁠Problemen binnen organisaties kun je documenteren. Dat is veel werk en bovendien gaat het wellicht over bedrijfsgevoelige informatie die je niet wilt uploaden naar een generatieve AI-oplossing.
⁠⁠De informatie over grondoorzaken kan ook weleens vooral impliciet of niet-tastbaar van aard zijn (tacit knowledge). Deze kennis is lastig te documenteren. Je kunt interviews gebruiken om de informatie meer tastbaar te maken.

De vraag is nu of de nieuwe versie van ChatGPT in staat is vraagstukken van een organisatie te analyseren. Op dit moment niet. Je kunt de applicatie immers niet voeden met contextspecifieke factoren. Zelfs als dit wel mogelijk wordt, gelden de twee beperkingen die ik hierboven heb genoemd. Uiteraard kun je wel het large language model voeden met geanonimiseerde data.

Ik ben op dit moment nog steeds niet overtuigd van de toegevoegde waarde van deze nieuwe versie voor de werkzaamheden waar ik generatieve AI voor gebruik. Ethan Mollick slaat echter de spijker op z’n kop als hij schrijft:

It is amazing, still limited, and, perhaps most importantly, a signal of where things are heading.

Meer weten over deze versie van ChatGPT?

Mijn bronnen over (generatieve) artificiële intelligentie

Deze pagina bevat al mijn bijdragen over (generatieve) artificiële intelligentie, zoals ChatGPT.

Andere bronnen over generatieve AI

This content is published under the Attribution 3.0 Unported license.

Geef een reactie