Vertrouwen op AI is gevaarlijk. Niet vertrouwen ook.

(Deze blog is een coproductie met Daan Di Scala, collega bij TNO en PhD-kandidaat aan de Universiteit Utrecht.)

Een oude toepassing van AI die elke Nederlander – zonder het te weten – begin jaren 90 dagelijks gebruikte, was het geautomatiseerd lezen van handgeschreven adressen op brieven. Zo kon het sorteerproces van PTT Post goedkoper en sneller worden ingericht. De eis aan de nauwkeurigheid van dat systeem was maximaal 0,4% fout gelezen postcodes. Het onderzoeksteam dat daaraan werkte vond dat een oneerlijke eis: de menselijke invoer (zalen vol met typistes) had op dat moment 1,5% fout. Als een systeem net zo nauwkeurig was als een mens, dan was het toch te vertrouwen? Of niet?

Als een zelf-rijdende auto een dodelijk ongeval veroorzaakt, dan is dat voorpaginanieuws. Terwijl andere soorten verkeersdoden meestal alleen maar als statistiek gepresenteerd worden. Er is nog steeds discussie over de vraag of Tesla’s autopilot meer of minder verkeersdoden per miljard kilometers maakt dan mensen, maar zelfs als een automatisch systeem structureel minder (dodelijke) fouten maakt, is het de vraag of we zelfrijdende auto’s massaal (willen) gaan vertrouwen.

Het is duidelijk: vergissen is menselijk, en omdat een machine niet menselijk is, stellen we daar andere eisen aan. Hogere eisen. Logisch ook wel: een menselijke fout kan dramatisch zijn maar blijft een individueel geval. Als machines gaan handelen dan wordt de schaal opeens wel heel groot: als ze collectief en in hoog volume dezelfde fout maken, wordt het een zootje. Daar voelen we ons begrijpelijkerwijs niet zo prettig bij. Wat het nog extra ongemakkelijk maakt: wie wordt verantwoordelijk gehouden bij ongelukken waar algoritmes een rol spelen? (een juridisch vraagstuk voor een volgende keer…)

Vertrouwen in nieuwe technologie

Toen Wikipedia in 2001 opkwam werd dit als een zeer onbetrouwbare bron gezien. Hoe kan tekst die door Jan en Alleman kan worden aangepast, tot nauwkeurige informatie leiden? In 2005 publiceerde Nature een invloedrijke studie waaruit bleek dat er niet zo gek veel verschil tussen Wikipedia en de beroemde Encyclopedia Britannica. Wiki had iets meer feitelijke fouten, terwijl Britannica wat minder duidelijk was. Een latere vergelijking gaf aan dat Wiki zich behoorlijk had gerevancheerd. Inmiddels is Wiki een autoriteit en wordt het ook door wetenschappers veel gebruikt. 

De methode ‘wiki’ werkt verrassend goed.

De manier van werken van Wikipedia was totaal nieuw. Iedereen kon wijzigingen aanbrengen, dus misschien was dit dan wel fundamenteel ‘onbetrouwbaar’, maar juist daardoor werkte het goed. Dat betekent niet dat andere wiki-achtige initiatieven automatisch net zo goed zijn. Er is de Grokipedia, die veel kritiek krijgt. Er is ook de Conservapedia met een nogal specifiek wereldbeeld, wat door lang niet iedereen als ‘betrouwbaar’ zal worden gezien.

Ons oordeel over wat wel of niet betrouwbaar is kan dus veranderen. Iets nieuws bekijken we met argwaan, maar wie een technologie al vanaf zijn jonge jaren heeft gebruikt weet niet beter. Elke technologiegeneratie heeft zijn eigen startpunt. Kort door de bocht: technologie die al bestond toen we opgroeiden, nemen we gewoon als een gegeven. Technologie die opkomt vanaf dat we een jaar of 10 zijn, wordt enthousiast omarmd. Technologie die na ons 30e levensjaar geïntroduceerd wordt, bekijken we met gezonde argwaan.

Vertrouwen in AI

Gaan we LLM’s ook zo zien? Voor iedereen die nu met een chatbot werkt, geldt dat AI nog niet bestond toen zij geboren werd. Het is dus nieuw, verbazingwekkend, magisch! Maar veel critici wijzen erop dat een LLM alleen maar een grote en complexe doos met statistiek is, die vaak een antwoord zal geven dat ‘ongeveer goed’ is. Verontrustend dat we dat accepteren! De term ‘stochastische papegaai’ is niet helemaal nauwkeurig, maar wel goed gevonden: chatbots reproduceren op willekeurige (‘stochastische’) manier wat eerder door mensen is opgeschreven. Net zoals we destijds waarschuwingen over Wikipedia aan de jeugd gaven, moeten we scholieren vandaag de dag leren dat je niet zomaar alles kunt kopiëren van ‘chat’. 

Chatbots zijn getraind om overtuigend en menselijk te klinken. Dat kweekt een band en wekt vertrouwen. De voorbeelden waarbij het misgaat zijn talloos. Zo werden er verschillende reizigers tegengehouden bij de douane, omdat ChatGPT ze verkeerde informatie gaf over benodigde visums. Daar gaat je vakantie! Het blijft nodig om de bronvermelding van chatbots te controleren, want voordat je het door hebt, is je rapport de deur uit met uit de lucht gegrepen informatie. Er komen dagelijks voorbeelden bij.

De juiste mate van vertrouwen

Te veel vertrouwen is duidelijk schadelijk. Te weinig vertrouwen kan ook desastreuze gevolgen hebben. Zeker voor toepassingen waar AI zich al heeft bewezen, kan het juist lonen om de adviezen van de systemen serieus te nemen. Bij sommige medische diagnoses geeft AI betere resultaten dan mensen – het negeren van het advies kan dan nadelig zijn. Er zijn helaas genoeg voorbeelden van ongelukken veroorzaakt door het volgen van eigen ‘gut feeling’ in plaats van (niet-menselijk) advies. Denk aan Air Flight 655, waar de bemanning het correct werkende Aegis-systeem niet vertrouwde, of de ramp met de Costa Concordia, waar de alarmen van het navigatiesysteem van het schip waren uitgezet.

Het negeren van goede adviezen is niet uniek voor geautomatiseerde systemen.

Voorgaande voorbeelden doen vanzelf denken aan de grootste ramp in de luchtvaart (Tenerife, 1977). Dit is mede veroorzaakt doordat de gezagvoerder van een vliegtuig een opmerking van de boordwerktuigkundige negeerde. Als gevolg hiervan zijn procedures en cultuur in de luchtvaartsector structureel veranderd.

Onze perceptie van wat betrouwbaar is, kan veranderen als je er vaak genoeg mee omgaat. Maar er is nog een reden waarom iets wat eerst onbetrouwbaar gevonden wordt, langzaam die status verliest. De technologie zelf verbetert namelijk ook. Al die geïnvesteerde miljarden gaan niet alleen naar de energierekening van datacenters, er wordt ook echt vooruitgang geboekt. Er wordt wel gezegd: “De AI die je vandaag gebruikt, is de slechtste die je ooit zult gebruiken”. Lastig is wel dat er geen belletje gaat op het moment dat AI zó betrouwbaar is, dat je je achterdocht kunt laten varen. En dat is maar goed ook: je moet áltijd kritisch blijven denken.

En, kritisch denken is iets wat je kunt leren. Als een chatbot zelf een feit voorstelt, kun je dat natuurlijk altijd even checken. Hiervan zijn al heel wat voorbeelden in het nieuws gekomen, dus veel mensen zijn er al wel alert op. Maar andere problemen zijn moeilijker te voorzien. De willekeur van de stochastische papegaai bijvoorbeeld: vraag hetzelfde nóg een keer aan een chatbot en het antwoord kan zomaar anders zijn. Vooroordelen (bias) is een ander punt: modellen die op ouderwetse data zijn getraind zullen ook een ouderwets wereldbeeld weerspiegelen, maar valt dat de gemiddelde gebruiker op? 

Onbetrouwbare technologie toch kunnen vertrouwen

Als het om betrouwbaarheid gaat, is het interessant om eens naar een andere hoogtechnologische innovatie te kijken die we bijna allemaal gebruiken: medicijnen en vaccins. De overeenkomst met AI is dat die (meestal) ook niet 100% betrouwbaar zijn. En net als bij AI, kunnen medicijnen of vaccins ook gewoonweg controversieel zijn. Weerstand tegen vaccins bestond al langer, maar de corona-vaccins veroorzaakten extra wantrouwen omdat ze verdacht snel ontwikkeld leken te zijn en bovendien “iets met DNA” te maken hadden. De ontwikkeling van AI gaat óók heel snel en voelt bovendien magisch aan omdat iedereen maar blijft benadrukken dat de werking een soort zwarte doos is die niemand écht begrijpt. 

Medicijnen zijn soms ook een zwarte doos.

Interessant is dan om op te merken dat van één van de meestgebruikte medicijnen ter wereld, paracetamol, niemand uit kan leggen hoe het precies werkt. Maar, over de uitlegbaarheid van AI komt later nog een blog.)

Het grote verschil tussen medicijnen en AI is dat voor medicijnen en vaccins strenge en uitgebreide tests worden gedaan en dat alle bijwerkingen nauwlettend worden geregistreerd. De meeste medicijnen mogen alleen door een professional worden voorgeschreven. Apotheken checken op combinaties van medicijnen. Er zijn bijsluiters. Dat is allemaal nodig: alleen als je heel scherp naar de situatie kijkt kun je echt op een medicijn vertrouwen. 

Wetten, werk en waakzaamheid

Dus, hoe gaan we AI kunnen vertrouwen? Drie punten op een rijtje: 

Er komen wetten. Het komt nog niet in de buurt van de regelgeving rondom medicijnen, maar de AI Verordening van de Europese Commissie probeert er wel iets aan te doen. Verplichte documentatie, verplichte waarschuwingen aan de gebruiker, toezicht, opleidingen… 

Opmerkelijk is wel dat deze wet alweer afgezwakt wordt voordat hij volledig van kracht is.

Bijvoorbeeld, de verplichting voor bedrijven om “AI geletterdheid” bij hun werknemers te bevorderen, is nu een taak voor de overheid geworden. Het ligt niet meer op het bordje van de bedrijven en dat betekent waarschijnlijk dat die broodnodige intuïtie er niet vanzelf gaat komen. (Reden temeer om met deze blogs door te gaan!) 

Net als bij medicijnen en Wikipedia blijft er werk aan de winkel: continue verbetering, nieuw onderzoek en ontwikkeling blijft nodig. 

Ondertussen moeten gebruikers van AI waakzaam zijn! Ze zullen dus zelf ervaring en inzicht op moeten doen, net zoals we dat hebben leren doen met andere onbetrouwbare technologie. Wie had dat gedacht: moeten we toch nog zélf na blijven denken!

Posted in

Plaats een reactie