Spreektaal wordt schrijftaal wordt internettaal – laat die AI-taal maar zitten

Is dit herkenbaar?

Het gebruik van Generatieve AI neemt toe–en dat is terug te zien in onze taal. De impact op ons taalgebruik kun je onderscheiden in drie categorieën:

  • Eenvormige stijl: GenAI produceert vaak gemiddeld, netjes en voorspelbaar taalgebruik.
  • Eenzijdige perspectieven: Modellen hergebruiken dominante patronen uit hun trainingsdata en bevoordelen daarmee meerderheidsopvattingen.
  • Standaard redeneerstijl: antwoorden volgen vaak vergelijkbare logica’s en argumentatiestructuren.

Waarom dit belangrijk is: taal is geen neutraal hulpmiddel, maar bepaalt mede hoe we denken, besluiten nemen en samenleven.

Je voelt meteen al aan dat deze tekst ‘raar’ is. De em-dashes (die liggende streepjes die langer zijn dan een ‘gewoon’ streepje), de opsomming met vetgedrukte kernwoorden, de standaaard uitdrukkingen zoals ‘niet dit, maar dat’. Ja, dit is AI-taal! We herkennen het uit de té mooie sollicitatiebrieven, de optimistisch-gladde LinkedIn berichten, de mailtjes die opeens opvallend goed geformuleerd zijn.

Eh ja, nou… we zien dus dat dat gebruik van generatieve AI, dat neemt gewoon toe, hè. En als je dan kijkt wat dat met ons taalgebruik doet, ja, dan… Ten eerste krijg je een beetje zo’n eenvormige stijl. Het klinkt allemaal zo… eh… gemiddeld, netjes, voorspelbaar. En dan, tweede punt, eh, de perspectieven, die zijn vaak best eenzijdig. Die modellen, ja, die pakken vooral wat al dominant is, wat de meeste mensen zeggen of denken. Dus afwijkende stemmen dus niet.

En als laatste, als derde, dus dat die redeneringen vaak hetzelfde lopen. Je krijgt steeds een beetje dezelfde logica, dezelfde stappen, dezelfde argumenten. Dit is best belangrijk, want, nou ja, taal is niet zomaar een hulpmiddel om info door te geven, dus, het is ook hoe we denken, hoe we keuzes maken en zo, zeg maar.

Bovenstaande is nou niet heel veel fijner om te lezen. Het is natuurlijk ook niet bedoeld om te lezen. Spreektaal is duidelijk niet hetzelfde als schrijftaal.

Schrijftaal is eigenlijk best gek

In een eerdere blog heb ik al een rant van Aristoteles gebruikt waarin hij de opkomst van de kunst van lezen en schrijven en de technologie van boeken als groot gevaar ziet. Hij had gelijk. In ieder geval: sinds mensen kunnen lezen en schrijven is er een aparte taal ontstaan. Soms vermengt zich dat op vermakelijke wijze: ‘notoir’ wordt door veel mensen als ‘notwaar’ uitgesproken, omdat dit typisch een schrijftaalwoord is en lijkt op andere woorden uit het Frans zoals ‘trottoir’ en ‘reservoir’.

Begrijpelijk, maar fout.

Het is in Nederland oorspronkelijk ‘notoor’, maar in België volgen ze dan weer wél de Franse uitspraak met ‘notwaar’. Waarbij zij het met ‘dossier’ en ‘dosjeeh’ dan weer precies andersom doen.

De technologie ‘boek’ en de vaardigheden die daarbij horen (lezen en schrijven), is bedoeld om taal vast te leggen. Dat heeft ons taalgebruik veranderd. Dat computers ook impact zouden hebben was dus geen verrassing. De ingebouwde spellingscontrole heeft er in ieder geval voor gezorgd dat sommige spelfouten bijna niet meer in het wild voorkomen, maar andere (‘gebeurd’) blijven hardnekkig. Iedereen kent de ergernis ‘damn you autocorrect’. En het heeft de ‘Engelse ziekte’ verder in het zadel geholpen: het fenomeen dat we woorden graag los van elkaar schrijven. Spellingscontrole kent soms het lange samengestelde woord niet maar de losse onderdelen wel, waardoor we woorden liever los van elkaar schrijven.

Internettaal

Toen het internet aan computers werd toegevoegd, werd ons taalgebruik verder veranderd. Afkortingen zoals WTF en LOL zijn algemeen bekend en komen soms ook in spreektaal terug. We hebben het gebruik van emoji’s natuurlijk volledig te danken aan internet. We zien ook het benadrukken van woorden door ze ‘uitgerekt’ op te schrijven: nniiiccceeee! Dit is iets wat op internet ontstaan is en alleen in ‘internetspreektaal’ gebruikt wordt. (Wie het interessant vindt: de laatste twee voorbeelden worden, naast vele andere, beschreven in het leuke boek ‘Because Internet’ van Gretchen McCullogh.)

Een andere internettaal trend die ik vooral op LinkedIn veel zie, is de stijl waarbij een betoog voor een groot deel uit alinea’s van één zin bestaat. Het is een manier om de statements van de schrijver veel gewicht te geven. Er wordt echt een punt gemaakt en het appelleert ook aan de internetlezer die snel een bericht doorscrollt en kennelijk makkelijker blijft hangen aan een losse zin.

AI-taal

De kans dat onze schrijftaal door AI verandert lijkt behoorlijk groot. Het is zó makkelijk om een stukje tekst met AI te schrijven dat er heel veel meer geschreven tekst ontstaat. Inmiddels is meer dan de helft van alle nieuwe tekst op internet door AI gemaakt.

Ik vergeleek eerder data met olie, AI met plastic en AI slop met microplastics. Net zoals kunststof tot weggooiverpakkingen leidde, leidt AI nu tot laagwaardige weggooiteksten. Moeten we dat willen? (Er wordt al gezegd: “It’s rude to show AI output to people”. Een beetje op de manier dat voor een snelle maaltijd tussendoor een voorverpakte maaltijd OK kan zijn, maar dat je, als je bezoek krijgt, niets uit pakjes en zakjes voorschotelt.)

Veranderd taalgebruik is misschien zorgelijk, maar dat is van alle tijden. (“De taalverloedering van onze jeugd!”) Echter: er zijn ook zorgen dat dat nu ook voor onze manier van redeneren zal gelden. Ontstaat er een monocultuur als iedereen voor als zijn feiten en afwegingen bij ChatGPT of een andere LLM te rade gaat?

Er zijn aanwijzingen dat het gebruik van Large Language Models tot ‘homogenisatie’ leidt. Dat gaat dan om de manier van schrijven, welke perspectieven er worden ingenomen, en hoe er geredeneerd wordt. (De tekst aan het begin van deze blog is een samenvatting van dat artikel.) De gegeven voorbeelden zijn nog een beetje anecdotisch, ze zouden ook kunnen gelden als je de impact van boeken op spreektaal wilt bekritiseren. Maar er is recent onderzoek wat inderdaad aangeeft dat er al twee effecten meetbaar zijn. Teksten op internet hebben inmiddels een aantoonbaar smallere range van ideeën en gezichtspunten, en zijn ook veel vaker geforceerd optimistisch van toon.

Andere effecten waren nog niet meetbaar.

Er was nog geen toename van gehallucineerde ‘feiten’, ook was er nog geen afname te zien van het aantal verwijzingen naar bronnen. Ook was de hoeveelheid echte ‘slop’, dus het effect van ‘veel woorden maar weinig inhoud’, nog niet te zien. En verrassend genoeg was de variatie in schrijfstijl ook (nog?) niet echt aan het afnemen.

De rol van massamedia lijkt op AI

Vraag is of deze trends doorzetten. De opkomst van massamedia in het midden van de twintigste eeuw heeft ook niet echt tot een monocultuur geleid. Driekwart eeuw geleden geleden hadden we in Nederland twee televisienetten en een handvol landelijke dagbladen. De kroeg, de kerk en de kantine van de sportclub vervulden de rol van social media.

De massamedia van toen lijken wel wat op de AI taalmodellen van nu. Journalisten hebben toegang tot alle openbare bronnen in de maatschappij plus nog een aantal niet-openbare bronnen. Journalisten observeren en verwerken de feiten zoals ze die zien in hun verhaal. Maar het zijn de redacties die bepalen hoe dit bij het publiek komt, door inhoudelijke keuzes te maken en ook de toon te bepalen. De redactie bepaalt uiteindelijk de ‘nestgeur’ van een medium.

AI taalmodellen zijn gebaseerd op alle openbare tekstuele informatie die op het internet te vinden is, plus nog een aantal bronnen waarvan het niet helemaal duidelijk is of het wel zo netjes is om die ook mee te nemen. Door middel van ‘pretraining’ leren die Large Language Models de taal, en nemen ze al doende ook een heel aantal feiten op in hun modellen. Maar het is de ‘finetuning’ die bepaalt hoe een model zich aan de gebruiker toont. Deze finetuning zorgt ervoor dat een chatbot instructies opvolgt, een bepaalde toon hanteert, en leert welke soort antwoorden als behulpzaam worden ervaren. De finetuning bepaalt de ‘cultuur’ van een model.

De analogie kun je nog doortrekken. Journalisten hebben onbewuste (soms ook bewuste) voorkeuren en selecteren daardoor misschien niet alle feiten. Een redactie kan daar maar beperkt iets aan verbeteren. Trainingsmateriaal van LLM’s is ook niet altijd representatief of kwalitatief voldoende. Ook daar kan finetuning dat maar beperkt verbeteren. Ook al heb je een abonnement op een krant of een streamingdienst, je kiest zelf wat je kijkt. Net zoals je er zelf voor kiest welke prompt je aan een AI voert.

Dus… monocultuur?

Democratische overheden willen monocultuur door massamedia voorkomen. Ze stimuleren daarom persvrijheid en streven pluriformiteit van het bestel voor de publieke omroep na. Dat is best te vergelijken met pluriformiteit van AI chatbots. Er zijn op dit moment nog tientallen taalmodellen en een flinke handvol chatbots, maar het is nu te begrijpen waarom het goed is om die variatie ook vooral te willen behouden.

Een beetje monocultuur is misschien ook niet zo heel erg: effectief communiceren wordt makkelijker als er een bepaalde standaard is. Om een eerder gemaakte parallel aan te halen: de boekdrukkunst zorgde ervoor dat spelling min of meer gestandaardiseerd werd. Mits niet te ver doorgedreven, zijn die spellingsregels echt wel handig voor de lezer. Een standaard wordt wél problematisch als afwijkende stemmen en onverwachtse ideeën erdoor onderdrukt worden.

Hoe zal dit verder gaan?

Het medialandschap is flink verbreed: het aantal televisiezenders is geëxplodeerd en er zijn naast lineaire TV ook ontzettend veel streamingdiensten gekomen. Kranten zijn minder belangrijk geworden maar daar staat tegenover dat er blogs en social media bijgekomen zijn. Nog meer variatie dus en er zijn geen tekenen van een monocultuur. Door de toegenomen keuzemogelijkheden is er eerder sprake van een nieuw soort verzuiling: iedereen in zijn eigen bubbel.

De parallel tussen AI en massamedia is er zeker, maar loopt wel op een ongemakkelijk punt spaak. Bij media is er sprake van wettelijke persvrijheid, de publieke omroep streeft naar pluriformiteit, en alle nieuwsredacties hebben hun onafhankelijkheid vastgelegd in statuten, stichtingen en andere constructies. Voor AI is dat er allemaal niet. Ja, er is de AI Verordening die stelt dat trainingsdata voldoende representatief moet zijn. Of dat voldoende zal zijn?

Breed gebruik van AI kán als gevolg hebben dat de middelmaat de norm wordt. Dat is overigens ook de standaard kritiek op massamedia: te veel middelmaat. Maar, er zullen altijd verschillende AI systemen blijven (omdat een taalmodel niet van het ‘winner takes all’ model profiteert – iets voor een andere blog). Die zullen allemaal hun eigen groep gebruikers hebben, die dan wel in hun eigen bubbel risico lopen dat de middelmaat de norm wordt – maar andere groepen zullen daar dan weer van afwijken.

Het is daarom maar goed dat de techreuzen in de VS doorgaan met onderling ruziemaken en het is nog beter dat er in Europa, hoe bescheiden ook, serieus gewerkt wordt aan onze eigen tech. Zodat we die monocultuur fijn op afstand kunnen houden.

Posted in

Plaats een reactie