Als data “de nieuwe olie” was, wat is AI dan?

In de tijd dat de term ‘big data’ heel erg nieuw was en zéér veelbelovend, riepen we enthousiast naar elkaar “data is de nieuwe olie!”. Het idee daarachter was dat de grondstof ‘data’ tot een enorme hausse aan nieuwe en nuttige toepassingen zou leiden. Die vergelijking is misschien wel beter dan we dachten.

In mijn favoriete metafoor rondom AI is olie inderdaad de brandstof. Olie is ook de basis voor die andere innovatie die misschien nog wel het meest alomtegenwoordig is in ons dagelijks leven: plastic.

Data is overal en er komt steeds meer van. Ook olie is overal, of eigenlijk het product ervan is overal: CO2 en plastic. CO2 hebben we al besproken (zie effect van AI op uitstoot), dus laten we nu vooral naar plastic kijken.

Plastic en AI slop

Plastic heeft ons heel veel gebracht (zoals voedselveiligheid). Maar als plastic afbreekt krijg je microplastic. Microplastics zijn overal, helaas ook op plekken waar we het niet willen hebben. Dat heeft vervelende effecten op onze gezondheid, ook al weten we nog niet helemaal precies hoe het uitpakt. Ook vervelend is het dat die microplastics niet meer te verwijderen zijn.

Microplastics kun je vergelijken met laagwaardige tekst, typisch het soort teksten dat door AI gemaakt wordt. Dit wordt in het Engels ‘AI slop’ genoemd en ik lees die term ook in Nederlandstalige artikelen, maar ik vind de vertaling ‘AI drab’ eigenlijk wel zo mooi.

Zelfs in de keuken kom ik drab tegen.

(Even tussendoor. Als ik aan het koken ben en mij afvraag hoe lang sperziebonen eigenlijk gekookt moeten worden, kom ik wel eens op dit soort sites sperziebonenkoken.eu terecht. Als de tekst die je daar leest door een mens geschreven is, dan vind ik het knap gedaan. Wat weinig informatie in zoveel tekst!)

Gezondheid

Wat doet AI drab met onze eigen geestelijke gezondheid? Er wordt al over brain rot gesproken (maar daarover later in een andere blog meer). Los daarvan, de enorme hoeveelheid tekst die je nu kunt maken, begint het nieuwe probleem te worden voor bedrijven die AI inzetten.

AI drab is dus irritant voor onszelf, maar doet daarnaast óók foute dingen met de ‘gezondheid’ van AI zelf. Het blijkt dat als je nieuwe AI-modellen traint op basis van teksten die door AI zelf gemaakt zijn, dat er dan een soort inteelt ontstaat. De technische term hiervoor is model collapse.

Dat zit zo. Als een AI model gemaakt wordt, “leert” het van de trainingsdata. Het model probeert de werkelijkheid die in die trainingsdata zit te modelleren (vandaar het woord ‘model’!). Daarbij verlies je altijd wat informatie: er treden vereenvoudigingen op omdat alle data op een statistische hoop gegooid wordt. Ook vind je in ‘echte’ data soms zeldzame, uitzonderlijke, maar tegelijkertijd valide informatie die niet door het model gereproduceerd wordt – omdat het zo zeldzaam en uitzonderlijk is natuurlijk. Maar wat niet gereproduceerd wordt, komt dus ook niet voor in ‘nieuwe’ data die dat AI-model maakt. Volgende AI-modellen die daarop getraind worden, pikken dat dus ook niet meer op. Alsof je een tekening op de kopieermachine kopieert, en die kopie weer kopieert, en weer, en weer… totdat je uiteindelijk een grijze karikatuur van het origineel overhoudt.

Het blijkt dat sommigen “data van vóór 2022” inmiddels verzamelen en apart bewaren. Die “pre-AI data” lijkt wel, zoals Ars Technica dat zo scherp zag, op het stralingsvrij staal dat verzameld wordt voor bepaalde toepassingen. Dit staal is geproduceerd vóór de eerste kernproeven wereldwijd werden gedaan en is ‘schoon’ omdat er toen nog geen radioactieve vervuiling was.

Net zoals bij microplastic is het nog niet zo makkelijk om die drab ook uit data te verwijderen. Er zijn nog geen betrouwbare manieren om AI-drab te herkennen.

De wetenschap ontkomt er trouwens zelf ook niet aan.

(Het is misschien nog wel erger. Voor veel mensen is ‘wetenschap’ synoniem met ‘waarheid’. Dat is overigens een misvatting: wetenschap probeert de best mogelijke verklaring naar huidig inzicht te vinden maar kan altijd door een nog beter idee vervangen worden. Er zijn inmiddels wetenschappelijke publicaties waarin resultaten worden gepresenteerd die door AI gemaakt zijn. Die publicaties worden door andere wetenschappers als basis genomen om op verder te werken! De hoeveelheid papers met AI-sporen erin neemt toe.  Vooral ‘survey papers’ zijn daar gevoelig voor. Nu worden deze publicaties in principe gereviewd, maar als het er zoveel zijn is het de vraag of dat nog goed gebeurt. Wordt AI drab ook in de wetenschap een probleem?)

Geld en geopolitiek

Olie heeft nogal wat economische impact en ook hier is de analogie met data geldig: het is nogal kapitaalintensief om de economische voordelen van olie ook echt te verzilveren. Je hebt boorplatforms en raffinaderijen nodig. Met data is het net zo: pas als je er héél veel van hebt kun je er een enigszins betrouwbaar taalmodel mee maken.

Een laatste overeenkomst tussen olie en data is rondom kolonialisme. Tot op zekere hoogte (niet overal) was olie iets om uit andere landen te halen. Dat ging dan meestal op zo’n manier dat die landen er zelf niet zoveel voordeel van hebben. “Datakolonialisme” is een term die je vaker ziet de laatste tijd: de neiging van machtige bedrijven (Big Tech) om data van personen te roven voor eigen gewin. Bijna alle taalmodellen zijn getraind op data die van websites gehaald is zonder dat de rechthebbenden daar toestemming voor hebben gegeven. Dat kun je zien als een 21e eeuwse ‘VOC mentaliteit’: ga op reis en pak wat je pakken kan. Data is net als olie diep met geopolitiek verbonden.

Dus?

Kortom: dat data de nieuwe olie zou zijn, is nog steeds geen gekke vergelijking. De AI data centers van Big Tech zijn dan te vergelijken met de raffinaderijen van Big Oil.

We realiseren ons vaak niet hoe enorm veel impact olie op ons leven heeft. De positieve impacts zijn er echt wel, de schaduwzijden zijn er zeker ook. We kunnen de impact van AI nu nog zo bijbuigen dat we de schaduwzijden daarvan zo klein mogelijk maken.

Posted in

Eén reactie op “Als data “de nieuwe olie” was, wat is AI dan?”

  1. […] Als data “de nieuwe olie” was, wat is AI dan? […]

    Like

Plaats een reactie