Kunnen we nakijkwerk aan algoritmes overlaten?

12 december 2019 - Jeroen Langendam

toetsen en examens leveren veel nakijkwerk op. (Afb: Shutterstock)

Nu artificiële intelligentie steeds beter wordt, gaan er stemmen op om nakijkwerk uit te besteden aan algoritmes. Is dat een goed idee?

Het nakijken van toetsen of ingeleverde werkstukken levert leerkrachten enorm veel werkdruk op. Doordat er vaak weinig tijd zit tussen het maken van de opdracht door de leerling of student en het moment waarop de toetsresultaten bekend moeten zijn, betekent een proefwerkweek vaak een piekbelasting voor de leerkracht. En dat betekent: doorwerken in het weekend en de avonduren.

Enerzijds is het zelf nakijken van toetsen heerlijk, want in de beantwoording zie je in hoeverre de leerling gegroeid is in je lessen. Maar toch, soms zou je het willen uitbesteden.

In de Verenigde Staten blijken (minstens) 21 van de 50 staten het nakijkwerk inderdaad te hebben uitbesteed. Daar maken ze gebruik van algoritmes voor het nakijken van gestandaardiseerde tests. Goed nieuws voor de leerkrachten én de leerlingen, zou je zeggen. De leerling heeft zijn resultaten sneller en de leerkracht kan gewoon eens een keertje lekker op de ank een serie kijken. Win-win.

Er blijkt echter een probleem met het geautomatiseerd nakijken door artificiële intelligentie: de systemen blijken nog lang niet intelligent genoeg.

AI/Machine learning werkt met patronen

Nakijkmachines werken op basis van Artificiële Intelligentie (AI) en Machine Learning. Deze systemen kijken naar bepaalde patronen uit het verleden. Ze zoeken naar dingen in het werk die samenhangen met hoge (of lage) cijfers. Wanneer ze ontdekken dat een bepaald antwoord of bepaalde zin vaak voorkomt in hoog-beoordeelde toetsen, zal het systeem hiervoor meer punten toekennen.

Wanneer het gebruik van een woord (bijvoorbeeld Montesquie) in een bepaald examen (bijvoorbeeld Staatsinrichting) veel blijkt voor te komen in examens met hogere cijfers, zal het systeem examens die dat woord bevatten een hoger cijfer geven. Zelfs indien de leerling denkt dat de Montesquieu de vader is van Romeo (Montague) en niet de grondlegger van de Trias Politica.

Het gebruik van patronen klinkt slim, maar kan dus tot heel domme conclusies leiden.

“Het probleem is dat bias ook een soort patroon oplevert. De AI-systemen herkennen dit patroon en zullen het gaan toepassen. Daardoor versterken machine learning systemen de bias nog verder”
Emily Bender, professor Computational Linguistics, Universiteit van Washington

Racisme en vooroordelen

Om te beginnen blijken de AI-systemen een bias te hebben die bepaalde demografische groepen bevoordeeld. Dit is een probleem dat in de AI-wereld wel vaker de kop opsteekt.

Emily Bender, professor Computational Linguistics aan de Universiteit van Washington legt uit hoe dit komt. AI-algoritmes maken voor het nakijkwerk gebruik van patronen in bestaande data: “Het probleem is dat bias ook een soort patroon oplevert. De AI-systemen herkennen dit patroon en zullen het gaan toepassen. Daardoor versterken machine learning systemen de bias nog verder”.

Het hebben van een bias richting bepaalde groepen is iets waar leerkrachten al jaren mee worstelen. Bewust of onbewust heeft elke leerkracht ideeën over bepaalde leerlingen. Een bekend onderzoek, het Rosenthal-Jacobson onderzoek, illustreert dit. De onderzoekers vertelden leerkrachten vooraf dat bepaalde groepen hoogbegaafd waren en andere groepen zwakke leerlingen bevatten. De leerkrachten in het onderzoek pasten hun manier van lesgeven aan op de verwachtingen die ze hadden van de leerling. Het gevolg: de zogenaamd zwakkere groepen deden het beduidend slechter op school.

We ontdekten dat de bias van beoordelaars een belangrijke rol speelt in het geautomatiseerd beoordelen van essays.
Evelin Amorin e.a. (2018)

Elke leerkracht heeft een vorm van bias. Maar als leerkracht kun je jezelf hiervan bewust zijn en er rekening mee houden. Algoritmes doen dit echter niet, waardoor ze volgens deskundigen racisme in de hand kunnen werken.

AI-systemen hebben moeite met de betekenis van taal

Een andere bias van algoritmes heeft te maken met taalgebruik en zinsbouw. Algoritmes hebben een sterke neiging om langere zinnen met moeilijkere woorden als intelligenter te beschouwen. Dat heeft twee onwenselijke effecten.

Moedertaal beïnvloedt toetsscore

Op de eerste plaats worden leerlingen met een andere moedertaal op achterstand gezet. Zij gebruiken vaak kortere zinnen, met minder ingewikkelder woorden. Hoewel hun teksten vaak eenvoudiger leesbaar zijn, wordt het door veel AI-systemen beschouwd als minder intelligent, waardoor ze lagere cijfers krijgen.

Ook zonder zich zorgen te maken over de bias van nakijksystemen is de leerling voor examens al gestresst genoeg. (Afb: Shutterstock)

Uit onderzoeken van Educational Testing Services (ETS) blijkt overigens dat sommige studenten juist hóger scoren. Chinese studenten krijgen hogere cijfers van AI-systemen dan van echte leerkrachten. Arabische studenten, Spaanstaligen, Hindi en Afrikaanse studenten scoren echter significant slechter wanneer het nakijkwerk door een machine wordt gedaan.

Brent Bridgeman, van ETS, worstelt hiermee: “Als we iets veranderen om groepen met een bepaalde achtergrond eerlijker te boordelen, zal dit waarschijnlijk voor andere groepen negatief uitpakken”.

Onzin-essays scoren hoog

Ten tweede blijken essays met lange zinnen, waarin veel moeilijke woorden voorkomen, vaak hogere cijfers krijgen. Maar, zoals elke leerkracht weet, het gebruik van moeilijke woorden is een manier waarop sommige leerlingen verbloemen dat ze niets van het vak hebben begrepen. Daardoor kunnen ook onzin-essays hoog scoren. Zo lang er maar een hoop moeilijke woorden in staan, keuren de algoritmes het vaak al goed.

“De BABEL Generator bewijst dat je een volstrekt onsamenhangendheid kunt hebben, dus iets waarbij de ene zin niets met de andere te maken heeft, en nog steeds een hoog cijfer kunt krijgen. ”
Les Perelman, Massachusetts Institute of Technology (MIT)

Les Perelman, van het Massachusetts Institute of Technology (MIT) ontwikkelde samen met zijn studenten de “Basic Automatic B.S. (BullShit, JL) Essay Language (BABEL) Generator”. Dit programma doet niets anders dan moeilijke zinsdelen aan elkaar plakken. Hierdoor ontstaat een essay dat volkomen onzinnig en betekenisloos is. Deze BABEL-essays werden vervolgens door de verschillende AI-toetsingssystemen beoordeeld. Het resultaat? Hoge scores, soms zelfs 100%

Perelman: “De BABEL Generator bewijst dat je een volstrekt onsamenhangendheid kunt hebben, dus iets waarbij de ene zin niets met de andere te maken heeft, en nog steeds een hoog cijfer kunt krijgen. “

Zinloze feedback door geautomatiseerd nakijkwerk

Het beoordelen van toetsen met een cijfer is normaal gesproken slechts één van de doelen van toetsing. Maar naast de diagnostische functie behoren toetsen en examens ook feedback te geven. Door goede feedback kan de student, ook bij een onvoldoende, ontdekken waar hij zijn focus moet leggen. Toetsen dragen op die manier bij aan het leerproces van de leerling.

Maar wat is de waarde van feedback, wanneer het van een AI-systeem komt dat patronen die niet per sé iets zeggen over de leerling zelf? Sterker nog, wordt een student er beter van wanneer hij of zij feedback krijgt van een systeem dat een racistische bias heeft?

Nadelen geautomatiseerd nakijken met AI genegeerd

Ondanks de nadelen blijken de staten die AI gebruiken om nakijkwerk uit te voeren de technologie volledig te hebben omarmd. Dat zou een financiële reden kunnen hebben: want het laten nakijken van een essay door een machine is stukken goedkoper dan het traditionele systeem met een corrector en tweede corrector. Zelfs het vervangen van één van de twee menselijke nakijkers scheelt al sterk in de kosten. In tijden van financiële druk is het verleidelijk om de risico’s te bagatelliseren.

Nakijkwerk door algoritmes: zover zijn we nog niet

Dat er weinig onafhankelijk onderzoek bestaat naar de nauwkeurigheid en betrouwbaarheid van geautomatiseerde nakijksystemen draagt niet bij aan het kritisch beoordelen van deze systemen. Uit concurrentie-overwegingen zijn de ontwikkelaars van dergelijke systemen nogal gesloten over hun algoritmes, waardoor het lastig is deze systemen te beoordelen. De weinige onderzoeken die er zijn, zoals het onderzoek uit 2018 van Evelin Amorim, Marcia Cancado en Adriano Velosa, tonen echter aan dat er reden tot zorg is: “We ontdekten dat de bias van beoordelaars een belangrijke rol speelt in het geautomatiseerd beoordelen van essays.”

Alleen bij multiple-choice examens is het nakijkwerk door machines betrouwbaar te noemen. (Afb: Shutterstock)

Geautomatiseerde systemen die nakijken op basis van algoritmes, artificiële intelligentie en machine learning zijn dus weinig betrouwbaar. Alleen bij multiple-choice kennistoetsen kun je erop vertrouwen dat een computer de toets correct nakijkt.

Gelukkig voor leerkrachten zijn er tools beschikbaar die AI en algoritmes gebruiken om het nakijkwerk voor een menselijke leerkracht wat makkelijker te maken. Maar het volledig automatiseren van nakijkwerk? Dat is nog steeds een brug te ver.