Van crash test dummies tot chatbots: oude problemen in een nieuw jasje

Wie een voedselallergie heeft kan gewoon meedoen in onze maatschappij. Er zijn wetten over etiketteren van allergenen waardoor deze groep zonder problemen door het leven kan gaan. Toch?

Nou, dat valt behoorlijk tegen. Ik ken iemand die allergisch is voor kruidnagel. Een zeldzame allergie, maar je zult het maar hebben. Die mooie wetten over etikettering helpen hier niet. Dat wil zeggen: niet goed genoeg. Natuurlijk, ‘kruidnagel’ wordt regelmatig als ingrediënt expliciet genoemd. Maar er zijn best veel producten waarin ‘specerijen’ worden verwerkt – zónder dat aangegeven wordt wélke specerijen.

En probeer er dan maar eens via de klantenservice te achterhalen of daar ook kruidnagel bij zit.

“Alle allergenen staan op het etiket vermeld.”
Nou nee, vriendelijke chatmedewerker van een grote supermarkt: er zijn 14 officiële allergenen in de EU, maar er zijn er nog heel veel meer.
“De unieke smaak van ons product is gebaseerd op een specerijenmix die we van een derde partij afnemen en waarvan we de samenstelling niet bekend kunnen maken.”
Hey, ik ben geen concurrent die jullie product wil namaken! Maar, ik heb het nagevraagd, maar dit mag volgens de wet.
“Het spijt ons dat we niet aan uw verwachtingen hebben kunnen voldoen.”
Inderdaad, grote fabrikant van maaltijdcomponenten, je bent een klant kwijtgeraakt.

Dit zijn allemaal dingen waar ik als standaardgebruiker niet mee geconfronteerd word. Dat wordt anders als je blind of doof bent, een rolstoel gebruikt, laaggeletterd bent of in een andere doelgroep zit.

Het gaat er dan om hoe goed een medicijn werkt. Of dat de veiligheid van een product goed getest is: het heeft verrassend lang geduurd voordat er vrouwelijke crash test dummies breed beschikbaar kwamen en gebruikt werden. Het gaat om ribbelstrepen bij stations (zodat je ze met een blindenstok kunt ‘zien’) en braille op trapleuningen of bij liften. Het gaat om rolstoeltoegankelijkheid. Zeker, we doen ons best, maar het gaat bijna nooit vanzelf goed.

Simpel gezegd: Technologie sluit groepen mensen uit. Uitsluiting is een gevolg van bias – een bewuste of onbewuste neiging van de mensen die achter de technologie zitten, om maar in één richting te kijken. En dan ook nog eens niet verder te kijken dan hun neus lang is.

Bias in gradaties

Elke bias is vervelend, maar er zijn wel wat categorieën te onderscheiden.

Een heel praktische vorm van bias is een bepaald soort onoplettendheid als het om de vormgeving van dagelijkse dingen gaat. Een schaar die alleen lekker werkt voor rechtshandigen is er zo eentje. Allerlei belemmeringen in de publieke ruimte die rolstoelgebruikers in de weg zitten, maar ook de toegankelijkheid van informatie voor mensen die blind zijn. Soms is de oplossing best lastig te verzinnen, en soms moeten er dan ook wetten en regels komen om die af te dwingen. De ontwerpers van deze technologie kun je wel onwetendheid verwijten, maar ik herken mijn eigen gedrag er toch ook wel in: “ai, ik had er even niet aan gedacht dat je allergisch voor appel was!”

Een meer problematische vorm van bias is als er gemakzucht meespeelt. Bloedsaturatiemeters werken minder goed bij mensen met een donkere huidskleur bijvoorbeeld. Medicijnen werden zeker in het verleden niet altijd getest op alle soorten bevolkingsgroepen. Kogelwerende vesten in het leger passen niet bij de lichaamsbouw van vrouwen. De veiligheidsgordels en crash test dummies noemde ik eerder al. Met een beetje nadenken en opletten hadden de ontwerpers er heus wel rekening mee kunnen houden, maar kostenbesparing, gemakzucht of oogkleppen weerhielden ze ervan.

De meest kwaadaardige vorm bestaat uit vooroordelen. Kwaadaardig, omdat degene die de schade aanricht, beter zou moeten weten. In de omgang tussen mensen kan dit optreden, maar ook technologie geeft soms vooroordelen impliciet door. Kijk eens naar de vormgeving van apparaten, en vergelijk keukenapparatuur eens met elektrisch gereedschap voor de klusser. Zachte ronde vormen met pasteltinten versus hoekige chunky apparaten in groen, donkerblauw en zwart. Ook de stereotypen in handleidingen en reclamemateriaal horen hierbij.

Hoe zit het dan met AI?

AI is ook ‘gewoon’ een technologie, dus laten we dit eens gaan uitpakken.

Bij de onoplettendheid-bias valt het nog mee. We werken (vooralsnog) vooral met AI via schermpjes. Voor het oplossen van toegankelijkheidsproblemen heeft de digitale industrie al decennia de tijd gehad. Sterker nog, het is opmerkelijk dat er veel AI is die groepen mensen juist helpt om mee te doen. Bekende voorbeelden zijn voorleesprogramma’s die geschreven tekst kunnen omzetten in spraak. Of andersom, denk aan spraakherkenning voor mensen die anders een computer of telefoon niet zouden kunnen bedienen. Een nog mooier voorbeeld is de prachtige oplossing van het jonge Nederlandse bedrijf Whispp, die mensen helpt die stotteren. Het blijkt namelijk dat veel stotteraars daar veel minder last van hebben als ze fluisteren. Whispp zet via een app gefluisterde spraak direct om in stemhebbende spraak, zodat er een ‘normaal’, vloeiend telefoongesprek gevoerd kan worden.

De tweede soort bias, die door gemakzucht veroorzaakt wordt, was tot voor kort het soort waar AI het meest berucht om is. Meestal komt dit omdat de trainingsdata van een model niet goed doordacht is. We kennen de voorbeelden van donkere mensen die als gorilla’s werden herkend, omdat de trainingsdata van het model bijna alleen uit witte mensen bestond. Ook Amazon heeft een mooi voorbeeld opgeleverd: ze wilden een model trainen om de goede sollicitanten er automatisch uit te kunnen pikken. Dat model was getraind op eerdere sollicitanten die goed bleken te presteren. Probleem was alleen dat die eerdere sollicitanten vooral mannen waren. Dus het model selecteerde ook ‘vanzelf’ mannen. Het is wel een beetje te begrijpen: data verzamelen kost echt veel tijd en moeite. De meeste ontwikkelaars zijn blij dat ze überhaupt iets hebben en als hun model het ook goed blijkt te doen – getest op diezelfde slecht afgebakende en geselecteerde dataset – dan is het al heel wat.

Met de komst van chatbots is de vooroordelen bias ook in de AI-wereld terechtgekomen. Het eerste incident was de chatbot ‘Tay’ die door Microsoft was gemaakt en waar je via Twitter mee kon praten. Tay ontspoorde omdat het ontworpen was om te leren van de interacties. Dat werd natuurlijk direct opgepikt en uitgetest, met als resultaat dat Tay binnen een paar uur een racistische en seksistische Holocaust-ontkenner werd. (Dit was al in 2016! Dus ver voordat Mr. X het platform overnam.)

Na Tay bleef het een tijdje stil rondom chatbots, totdat natuurlijk in 2022 ChatGPT uitkwam. Omdat taalmodellen op ‘alle’ beschikbare teksten zijn getraind, is het niet verwonderlijk dat ook ‘alle’ vooroordelen van die trainingsdata in het model komen. Een bekend voorbeeld is dat een ‘dokter’ vaker als ‘hij’ dan als ‘zij’ wordt aangeduid, maar ook culturele en politieke vooroordelen kunnen doorschijnen in de output van deze modellen. Het probleem is dat veel grote taalmodellen (maar niet alle) getraind zijn op data die zonder al te veel selectie verzameld zijn. De ontwerpers weten gewoon niet precies welke ideeën er allemaal in de trainingsdata zitten.

Daar is met ‘finetunen’ nog wel wat aan te doen, maar dat is toch een beetje het achteraf corrigeren van iets wat niet helemaal OK is.

Een taalmodel wordt getraind door het grote hoeveelheden tekst te ‘voeren’: zo leert het model welke woorden in welke combinaties bij elkaar staan. In deze blog heb ik dat proces vergeleken met het tekenen van een landkaart. Na deze training, die heel veel tijd en energie kost, heeft het model als het ware een taal geleerd. Verbazingwekkend genoeg heeft het model óók een fiks aantal feiten erbij geleerd. Alleen: het model is nog niet zo goed in het voeren van een gesprek, of het samenvatten, versimpelen of vertalen van een tekst. Dat gebeurt met finetuning, waarbij er voorbeelden worden gegeven van wat goede antwoorden zijn en wat minder goede antwoorden zijn. Of hoe instructies opgevolgd moeten worden. Om in landkaart-termen te blijven: na de training staan alle wegen en plaatsen erop, maar de kaart vertelt je nog niet hoe je van A naar B kunt komen op de snelste manier, de kortste manier of op de toeristisch meest aantrekkelijke manier.

Ik heb al eerder betoogd dat GenAI (chatbots) nu alle aandacht krijgt, maar dat de ‘klasieke’ AI al langere tijd veel breder toegepast wordt. Voor veel toepassingen is bias dan niet zo’n groot probleem. Als AI wordt ingezet om bruggen te inspecteren, bosbranden te voorspellen of afval te scheiden, is een verkeerde beslissing als gevolg van bias vooral een probleem van nauwkeurigheid en betrouwbaarheid. Kwestie van instellingen aanpassen en zorgen dat de totale nauwkeurigheid maximaal is. Waarbij je maar moet accepteren dat een klein percentage mis zal gaan.

AI die mensen beoordeelt heeft het moeilijk

Het wordt ingewikkeld als die succesvolle AI toepassingen ook op mensen worden toegepast. Voor een brug of een bosbrand maakt het niet zoveel uit of hij bevooroordeeld wordt of niet. Maar als er mensen bij betrokken zijn wordt dat anders: de brug zelf vindt er niet zoveel van, maar de mensen die eroverheen rijden wél. Dan vertaalt bias zich naar het benadelen van bepaalde groepen.

Het slechte nieuws is dat er situaties zijn waarbij je dit soort bias soms niet weg kunt krijgen. Je kunt bias namelijk op verschillende, op zichzelf volstrekt redelijke, manieren zien. Maar die gezichtspunten kunnen niet allemaal tegelijkertijd worden ingevuld.

Vergelijk het met kaartprojecties: de Mercator-projectie waarbij een rechte lijn op een kaart hetzelfde is als een rechte lijn op zee. Dat is heel handig voor navigatie (dat was dan ook het doel van Mercator) maar het leidt er wel toe dat de oppervlaktes totaal niet meer kloppen: Groenland lijkt net zo groot als Afrika. Alternatief is de projectie waarbij die oppervlaktes wél kloppen maar rechte lijnen krom worden (bijvoorbeeld de Aitorf-Hammer projectie).

Er bestaat geen kaartprojectie waarop rechte lijnen recht blijven en oppervlaktes kloppen. Zo is er ook een groep selectiesystemen, of ze nu AI gebruiken of niet, die groepen met verschillende kenmerken altijd oneerlijk behandelt. Het fameuze COMPAS systeem, dat in de VS gebruikt wordt om te bepalen of een verdachte wel of niet op borgtocht vrijgelaten kan worden, heeft hier ook last van. Ja, het is vanuit één gezichtspunt eerlijk. Maar vanuit een ander gezichtspunt worden gekleurde verdachten benadeeld. En als je dát oplost, is dat eerste gezichtspunt weer oneerlijk geworden. (Deze situatie is te ingewikkeld om dit nu kort te behandelen. Ik hoop hier in een volgende blog dieper op in te kunnen gaan.)

Behalve dit nogal fundamentele probleem zijn er nog meer vervelende oorzaken van bias.

Een ander irritant effect is dat AI soms zó ‘slim’ is dat het zelf op zoek gaat naar een stukje vooroordeel. Je kunt een bepaald stukje informatie bewust weglaten om te voorkomen dat daarop gediscrimineerd wordt, zoals etniciteit. Maar dan blijkt zo’n model uit een combinatie van postcode, inkomen en schoolopleiding toch iets te kunnen reconstrueren wat verdacht veel op ‘etniciteit’ lijkt. Het lijkt een beetje op de ‘specerijen’ uit het begin van deze blog: oppervlakkig lijkt het helemaal OK te zijn maar als je dieper kijkt is er toch wel een probleempje.

Soms veroorzaakt een AI systeem zijn eigen bias. Denk aan het navigatiesysteem die weggebruikers massaal een altenatief voorstelt, wat vervolgens tot een nieuwe file leidt. Of de kritiek op de ‘predictive policing’ systemen, die op basis van kans op criminaliteit bepaalde wijken uitkiezen om vaker te surveilleren – en er voor konden zorgen dat er in die wijken nóg vaker boeven werden gevangen.

Maar mensen hebben toch ook bias?

Gebruik van AI om besluiten te nemen waar mensen bij betrokken zijn is dus een mijnenveld. De issues zijn overduidelijk. Je kunt zo’n AI-systeem vrij eenvoudig over zijn gehele gedrag beoordelen. En je zult vaststellen dat het bevooroordeeld is – kijk maar naar de voorbeelden hierboven.

Daarentegen: als mensen besluiten nemen dan zal de één het op de ene manier doen, en de ander op een andere. Dat is wat in de niet-AI wereld ook heel vaak gebeurt: schooladvies, voorschrijven van medicijnen, indelen van sporters in teams, rechterlijke uitspraken…

Er zullen daar zeker ook vooroordelen zijn. Maar door de verschillen tussen al die menselijke beslissers wordt het meestal lastig om aan te tonen dat het structureel misgaat. (Als dat wel zo is, praten we over institutionele vooroordelen; het zijn vaak lange en taaie processen voordat dat erkend wordt.) Het belangrijkste verschil is dit: bij het besluit van een mens zullen ook andere niet-meetbare en mogelijk niet-objectieve punten worden meegenomen. De menselijke maat, inderdaad.

Wat nu?

Daar staan we dan. Technologie wordt uitgevonden om ons leven comfortabeler en veiliger te maken, en dan blijkt dat discriminatie bijna onontkoombaar is. Wat nu?

In een eerdere blog over betrouwbaarheid van AI kwam de drieslag werken, wetten en waakzaamheid naar boven. Die is nu ook weer nuttig.

Veel technologie wordt in een vrije markt gebracht. Een product wat groepen mensen uitsluit zal door minder mensen gekocht worden. Of er komt een product op de markt voor de uitgesloten groep. Voor de bias die door onoplettendheid komt is dat een oplossing. Daarom zijn er scharen voor linkshandigen, fietsen met lage instap en is er shampoo voor mensen met krullend haar. Kortom, gewoon blijven werken aan verbeteringen!

Als dat niet goed genoeg werkt, dan gaan de meeste samenlevingen wetten maken. Je ziet dat het bij de ‘gemakzucht’ bias nodig blijkt om wetten, regels en standaarden op te stellen. Over de toegankelijkheid van websites of openbare plaatsen. Over standaarden die verplicht worden gesteld bij het testen van producten. En inderdaad: de AI Verordening stelt allerlei eisen aan AI producten. De eis van ‘betekenisvolle menselijke tussenkomst’ is er daar eentje van. Die zou moeten voorkomen dat AI systemen beslissingen nemen over groepen mensen zonder dat een (hopelijk verstandig) mens er serieus naar gekeken heeft. Dit ondervangt de onmogelijkheid om bias echt weg te krijgen.

De eis dat AI-systemen zoveel mogelijk vrij van bias moeten zijn is ook in de wet vastgelegd. Maar zelfs als technologie soms groepen mensen uitsluit, moet je dan de groep die er wél baat bij heeft die oplossing ook ontzeggen? Ook niet eerlijk! Van medicijnen is bekend dat ze soms alleen voor bepaalde groepen mensen werken – moet je zo’n medicijn dan terugsturen naar de ontwikkelaars met de opdracht ‘om de bias eruit te halen’? De AI verordening doet het niet zo strikt: die stelt dat de bias ‘zoveel mogelijk vermeden’ moet worden en dat de trainingsdata zo representatief mogelijk moet zijn. Dus niet dat het volledig vrij van bias moet zijn – en dat is expres zo geformuleerd. We weten nu waarom! (Dit aspect wordt nogal serieus genomen. Het is zelfs toegestaan om bijzondere persoonsgegevens, zoals ethniciteit, te verwerken om die bias er zoveel mogelijk uit te krijgen. Bijzondere persoonsgegevens zijn onder de privacywet echt supergoed beschermd.)

Ondanks het werken aan verbeteringen en het opstellen van wetten zal het zeker bij het onderwerp bias nodig blijven om waakzaam te blijven. De wetten en regels kunnen niet 100% voorkomen dat er AI-toepassingen op de markt komen die niet goed genoeg getest zijn en nieuwe biases introduceren. Extra vervelend daarbij is dat biases elkaar soms versterken. Dat heet intersectionaliteit: groepen mensen die al bepaalde nadelen hebben, worden vaak extra hard getroffen als ze nog een keer uitgesloten worden..

Dit alles maakt bias in technologie tot een taai probleem wat diep in onze samenleving verankerd is. AI heeft de neiging dat nog eens te versterken ook. Maar gelukkig is niet alles verloren: we kunnen die AI-toepassingen afkeuren als het ons niet bevalt. Dan moeten we het gewoon weer doen met onze eigen vertrouwde vooroordelen.

Laatste posts

Plaats een reactie Reactie annuleren

Laatste posts