Computers moeten rekening houden met verschillende perspectieven

Vorige week publiceerde Motherboard een artikel getiteld: “It’s too late — We’ve already taught AI to be racist and sexist.” In dat artikel werd mijn onderzoek aangehaald, waarin ik heb gekeken naar stereotypen en vooroordelen in de data waarmee moderne Kunstmatige Intelligentie (KI) getraind wordt om automatisch afbeeldingen te kunnen beschrijven. Het artikel begint (net als de titel) nogal dramatisch:

They say that kids aren’t born sexist or racist — hate is taught. Artificial intelligence is the same way, and humans are fabulous teachers.

Daar mag je best een vaatje zout bij nemen; het is weliswaar belangrijk om ervoor te zorgen dat computers een gebalanceerd wereldbeeld krijgen, maar het is absoluut niet zo dat er op dit moment digitale haatmachines getraind worden. Tijd voor wat context.

Waar ging het onderzoek over?

Computers hebben heel veel voorbeelden nodig om te leren hoe ze een afbeelding moeten beschrijven. Daarom is er de afgelopen jaren ontzettend veel data verzameld. De twee grootste verzamelingen zijn de Flickr30K en de Microsoft COCO-dataset. (Die tweede dataset heeft een fijne interface waarmee je de data zelf kunt verkennen.) Deze datasets bestaan uit tienduizenden afbeeldingen, waarvoor onderzoekers via een online marktplaats (Mechanical Turk) beschrijvingen hebben verzameld. De volgende afbeelding komt uit de MS COCO-dataset (waarvoor honderden mensen ook nog eens handmatig aan hebben gegeven wat de belangrijkste mensen, objecten en gebouwen zijn in iedere foto):

Bij deze foto hebben mensen de volgende vijf beschrijvingen gegeven:

  • Several athletes are sitting on the bench inside a gym.
  • Several male athletes waiting for their turn in the game.
  • Several men sitting on a blue bench in a gymnasium
  • Teammates sit on the bench watching and waiting.
  • Men in blue and black uniforms sit on a bench at a game.

In die beschrijvingen zit behoorlijk wat variatie: de mensen in de foto worden op verschillende manieren beschreven (atleten, teamgenoten, mannen), met meer of minder aandacht voor specifieke eigenschappen (geslacht, kleding die ze aanhebben). Sommige mensen vinden de locatie noemenswaardig (in de gymzaal), terwijl anderen het evenement belangrijker vinden (de wedstrijd). Wanneer je een foto in één zin moet beschrijven, maak je een keuze in wat je beschrijft en wat je weglaat in de beschrijving. Ik heb gekeken naar de keuzes die mensen maken in hun beschrijvingen, en de aannames die ze daarbij doen (bijvoorbeeld dat de atleten in de foto op hun beurt aan het wachten zijn).

Aannames, Verwachtingen, en Stereotypen

Camiel Beukeboom (VU, Sociale Wetenschappen) heeft een mooi overzichtsartikel geschreven waarin hij laat zien hoe ons talige gedrag beïnvloed wordt door onze verwachtingen. Wanneer we iets of iemand zien die niet aan onze verwachtingen of stereotypen voldoet, dan hebben we de neiging om die ‘afwijking’ te markeren. Bijvoorbeeld met het bijvoeglijk naamwoord mannelijke in “mannelijke zuster.” Of vrouwelijke in “vrouwelijke militair.” Of door middel van ontkenningen: “Jan eet taart zonder vorkje.” Daaruit spreekt de norm dat Jan eigenlijk een vorkje zou moeten gebruiken (de barbaar!).

Ik heb Beukeboom’s theoretische raamwerk toegepast op beschrijvingen van afbeeldingen, precies de trainingsdata voor computers. Als we kunnen laten zien dat die beschrijvingen ook gemarkeerd zijn, dan zouden computers die markeringen over kunnen nemen, en ze zelf kunnen gaan gebruiken. Om daarachter te komen, heb ik een deel van de Flickr30K-dataset handmatig bekeken en de beschrijvingen geanalyseerd. Daarbij heb ik twee dingen gevonden:

  1. Er zijn inderdaad verschillen te vinden in hoe mensen gemarkeerd worden. Baby’s met een donkere huidskleur worden vaker ‘zwart’ genoemd dan dat baby’s met een lichte huidskleur ‘blank’ genoemd worden. Dat heeft waarschijnlijk te maken met de Amerikaanse maatschappij, waarin blank de standaard is. Ik denk niet dat het wenselijk is voor een computersysteem om één sociale groep als de standaard te nemen, dus ik denk dat er maatregelen nodig zijn om iedereen gelijk te trekken.
  2. Zelfs als mensen gevraagd wordt om niet te gaan speculeren over de inhoud van een foto, geven ze toch een interpretatie van de situatie. Ik denk niet dat dit een bewust proces is; mensen hebben gewoon behoefte aan context. Als die er niet is, vullen ze hem zelf in. Dat kan onschuldig zijn (vrouwen die op de foto staan met een baby worden ‘moeder’ genoemd), maar er zijn ook voorbeelden waar mensen met een Aziatisch uiterlijk ‘Chinees’ of ‘Japanner’ worden genoemd (waar blanken nooit een bepaalde etniciteit toegeschreven krijgen). Mensen met een donkere huidskleur worden vaak ook beschreven als ‘African-American’ — ook als de situatie niet wijst op een locatie in de Verenigde Staten. In het algemeen wordt alles geïnterpreteerd binnen een Amerikaans referentiekader. Wat er niet Amerikaans uitziet, wordt gemarkeerd als Anders.

Die twee observaties leiden tot de conclusie dat de trainingsdata niet zomaar gebruikt kan worden om automatisch afbeeldingen te beschrijven. Of tenminste: niet zonder het risico om bevooroordeeld over te komen. Momenteel is dat probleem nog niet echt aan de orde: de huidige systemen zijn nog niet goed genoeg om nuances te herkennen, en geven vrij algemene beschrijvingen, maar naarmate de systemen beter worden, moeten we echt aan de slag om ervoor te zorgen dat de computer geen ongepaste dingen zegt.

Hoe kunnen we dat oplossen? Op naar perspectiefherkenning!

Het grote probleem is dat computers geen verschil kennen tussen een feitelijke weergave van een gebeurtenis en de manier waarop wij die gebeurtenis met onze woordkeuze inkleuren. Eén van de oorzaken daarvan is dat alle beschrijvingen verzameld zijn in de Verenigde Staten. Een Engelsman of een Indiër zal misschien een heel andere beschrijving geven van dezelfde afbeelding. Door data te verzamelen in meerdere sociaal-culturele omgevingen, kun je zien welke onderdelen van de beschrijvingen gelijk blijven (de kern), en welke onderdelen sterk variëren (de contextualisering). Voorbeelden van andere interessante variabelen zijn leeftijd (geven ouderen andere beschrijvingen dan jongeren?), geslacht, en sociaal-economische status. Wanneer we erkennen dat zulke factoren een rol kunnen spelen in ons taalgebruik, en dat we daar rekening mee moeten houden bij het trainen van automatische beschrijvingssoftware, dan hoeven we ons geen zorgen te maken over racistische of seksistische computers.

Samenvattend: we moeten ons bewust zijn van de verschillende perspectieven die mensen kunnen hebben op een situatie, en werken aan systemen die verschillende denkbeelden kunnen herkennen, en op een gepaste manier kunnen representeren. We kunnen de technologie alleen verbeteren door elkaar beter te leren begrijpen.

Emiel van Miltenburg werkt als promovendus bij de Vrije Universiteit Amsterdam, onder begeleiding van Piek Vossen.