Ik gaf ChatGPT het VWO examen natuurkunde. Het haalde een 7.3

Michiel Berger
4 min readJul 15, 2024

--

Ik was benieuwd of ChatGPT nou werkelijk zo intelligent is als een gemiddelde 16-jarige, zoals sommige mensen wel/niet geloven. Dit was mijn werkwijze.

  1. Upload het examen

Je kan deze vinden op https://www.examenblad.nl/2024/vwo/vakken/exacte-vakken/natuurkunde-vwo in PDF format waar ook een ‘Uitwerkbijlage’ staat (een PDF met figuren die bij het examen wordt gegeven) en het Correctievoorschrift, waarin staat hoe per vraag de punten worden toegekend

2. Laat ChatGPT vraag voor vraag antwoord geven

Hierbij gaf ik ChatGPT alleen maar de instructie die nodig is om de vraag te beantwoorden. Ik ontdekte gaandeweg bijvoorbeeld dat het helpt om ‘Controleer je antwoord’ en ‘Let op het aantal significante cijfers’ toe te voegen in het prompt. Ook denk ik dat het hielp om toe te voegen: “Herhaal eerst de vraag en let op dat je precies antwoord geeft op wat er gevraagd wordt” want daarna werd het beter. Op zich is dat een instructie die je een gemiddelde scholier ook geeft, in het examenjaar.

3. Controleer de antwoorden

Met behulp van het correctievoorschrift keek ik welke onderdelen van het antwoord goed waren, en gaf daar punten aan. Een voorbeeld:

Correctievoorschrift vraag 1

In dit geval gaf ik 2 punten: De juiste formule was gebruikt, de berekening was goed maar het aantal significante cijfers was niet goed. Al die punten heb ik in een spreadsheet gezet en opgeteld, en kwam tot 48 punten. Via de “Omzettingstabel normering” (ook gelinkt op bovengenoemde pagina) kan je zien dat dat een 7.3 is. Bij een heel aantal vragen (11–14) raakte ChatGPT volledig in de war en ging antwoorden geven op vragen die niet gesteld waren. Wellicht zat dit ergens in z’n trainingsdata. Dat waren allemaal 0 punten. Met de juiste prompting zou dit wellicht nog veel beter kunnen.

Dit viel me op:

  • Het is natuurlijk allereerst verbijsterend dat ChatGPT een eindexamen Natuurkunde VWO überhaupt kan maken door simpelweg een PDF te lezen, laat staan een 7.3 kan halen. Laten we eerst dit even goed laten inzinken.
  • Over het algemeen snapt ChatGPT goed wat gevraagd wordt en komt met de gegeven formules, figuren e.d. tot een goede aanpak van het probleem. Ook het uitwerken van die aanpak gaat heel vaak heel goed, stap voor stap.
  • Vaak ging een berekening mis. Je zou zeggen dat een computer dat nou juist goed kan, maar LLM modellen zijn daar niet goed in. Zelfs als hij de berekening uitschrijft kan het nog mis gaan.
  • Significante cijfers is een raadsel voor ChatGPT. Zelfs als je vraagt “controleer de significantie”: Hij gaat dan vrolijk alles nog een keer doen en dan een nog grotere fout maken met significantie.
  • Formules afleiden, meerdere formules gebruiken en invullen in elkaar op een logische manier ging fantastisch. Extra teleurstellend als vervolgens de uitkomst verkeerd is.

Hier is een voorbeeld van een van de uitwerkingen, waaruit de goede aanpak te zien is. Dit is dus de output van ChatGPT op de instructie: “Doe vraag 19, en herhaal eerst de vraag”

Deel van de uitwerking van vraag 19

Stap 4 was daarna om de temperatuur te bepalen uit die verhouding, middels een meegeleverde tabel, en dat opzoeken deed hij ook in 1x goed. En kwam vervolgens tot de verkeerde uitkomst.

Ik kan de hele chat helaas niet delen omdat er plaatjes in zitten, dat maakt delen onmogelijk momenteel. Maar je kan dit makkelijk zelf herhalen. Een goed prompt is “Ga verder met de volgende vraag. Herhaal eerst de vraag, controleer je antwoord nadat je dit gevonden hebt, en controleer op correct aantal significante cijfers.” maar ook daar zijn vast slimmere prompts voor. Ik vond deze redelijk omdat ik dit ook zo tegen mijn zoons heb gezegd.

Als 2e experiment heb ik ook nog het eindexamen Aardrijkskunde geüpload, maar dat werd al snel saai: ChatGPT gaf voortdurend de volledige en juiste antwoorden. Ik vermoed dat dat minstens een 9 is.

Het is interessant dit over een tijdje met een volgend model nog een keer te herhalen. Als ik zie welke sprong er zat tussen GPT-3.5 en 4o die we nu hebben, en diezelfde sprong in kwaliteit toepas op 4o, kan ik me niet voorstellen dat die lager zal slagen voor VWO dan summa cum laude.

En ChatGPT is duidelijk slimmer dan een gemiddelde 16-jarige.

--

--