We moeten AI niet alleen trainen, maar ook opvoeden

  • New technology
  • Think tanks
  • Blog

De massale investeringsgolf in AI-infrastructuur creëert volatiliteit in financiële markten en zet elektriciteitsvoorziening onder druk. Tegelijk roept de variabele kwaliteit van output met hallucinaties, onwaarheden of aanstootgevende resultaten, vragen op. AI trainen alleen lijkt niet te volstaan.

Toch is er vooruitgang. DeepSeek traint modellen sneller en met minder energieverbruik. De kwaliteit van de data om modellen te trainen verbetert. De controverse tussen “boomers” en “doomers”, waarbij de eersten onbegrensde mogelijkheden zien en de laatsten geloven dat computers de mensheid zal knechten, is weggenomen door “zoomers”. Zij beseffen dat de geest uit de fles is en zoeken een beter kader zoeken om met AI om te gaan. Hiervoor moeten we terug naar de basis: het trainen van modellen.

Van trainen naar opvoeden

Training betekent herhaling om een voorspelbare uitkomst te krijgen in een variabel proces. Dit leidt tot indrukwekkende prestaties, maar heeft beperkingen. Training is slechts een deel van opvoeden, een breder concept om artificiële intelligentie beter te gebruiken. Waarden en normen zouden de output van AI-modellen kunnen sturen. De maatschappij kent veel opvoedingsmechanismen om gedrag te belonen of te ontmoedigen. Die kunnen we ook voor AI-modellen invoeren. Robots hebben al een beloningsfunctie: een klok, die loopt zolang ze overeind blijven. Zo leren ze willekeurige bewegingen om te zetten in gecoördineerde handelingen, omdat ze onthouden welke bewegingen de tijd op de klok hebben gemaximaliseerd.

Voor generatieve modellen is het moeilijker: er zijn meer dimensies. Waarden en normen zijn onderworpen aan subjectiviteit en evolutie. Maar een multidimensionale beloningsfunctie voor feitelijke juistheid, gepast taalgebruik en zo meer biedt een kalibratie van de kwaliteit. Een score, of zelfs een rapport, kan dan ook gevolgen hebben. Tijdsvertraging voor presentatie van resultaten bij dalende scores is een voorbeeld van een corrigerend mechanisme. Kwaliteitsmodellen winnen zo aan populariteit, minder kwalitatieve modellen verliezen aanhang. Dit is analoog aan wat sommige elektronische marktplaatsen doen: zij tonen aanbieders in volgorde van dalende kwaliteitsscores.

Gebruikers kunnen AI-modellen evalueren volgens de dimensies van de beloningsfunctie, met wiskundige correctie om extreme input te weren. De inrichting en opvolging is wellicht de taak voor een publiek organisme, omdat opvoeding van digitale modellen eigenlijk het algemeen belang dient, net zoals een overheidsagentschap de kwaliteit van voeding of medicijnen bewaakt. 

De maatschappij kent veel opvoedingsmechanismen om gedrag te belonen of te ontmoedigen. Die kunnen we ook voor AI-modellen invoeren.

De digitale biecht

De evolutie van training naar opvoeden impliceert ook nieuwe concepten zoals de digitale biecht. Opbiechten van bedenkelijke resultaten geeft modellen de kans hun beloningsfunctie opnieuw te initialiseren, een digitale absolutie als het ware. Het centraal organisme dat de beloningsfunctie principieel bewaakt, fungeert als biechtvader. Dit vermijdt dat investeringen in modellenbouw verloren gaan omdat een slechte beloningsscore het model uit de markt duwt. Maar verzamelde biechtgeheimen zijn ook een nuttige bron van testcases om het beloningsalgoritme te verbeteren.

Een dergelijk organisme dat als scheidsrechter en biechtvader opereert, heeft natuurlijk een enorme macht. De geschiedenis toont dat het sturen van gedrag via beoordelingen grote groepen mensen kan beïnvloeden.  Denk bijvoorbeeld aan de jaren dertig van de vorige eeuw, waarbij in sommige landen extreem gedachtengoed in scholen werd onderwezen. 

Dit probleem wordt nog moeilijker omdat AI snel en diepgaand innoveert en het maatschappelijk debat over wenselijke regelgeving in principe altijd achter de nieuwste ontwikkelingen aanholt. Hier kan een proces van peer review helpen. Wetenschappelijk onderzoek publiceert voortdurend artikels met nieuwe inzichten. De peer review bepaalt de kwaliteit. Bij analogie zou een panel van AI-operatoren nieuwe modellen kunnen evalueren en zo de initiële beloningsscore bepalen, of aanpassingen suggereren om het juiste gedrag te bevorderen. Naarmate inzichten vorderen kunnen traditionele regelgevers en de organismen die zij met kwaliteitsbewaking belasten, de fakkel overnemen. 

AI schenkt ons ongekende mogelijkheden door extreem doorgedreven training. In de toekomst is een evolutie van training naar een breder ontwikkelingsconcept zoals opvoeden nodig. De inrichting van de instrumenten en organismen die AI-modellen in de juiste richting sturen, wordt een van de belangrijkste componenten om de beloftes van deze technologie echt waar te maken.    


Auteur: Johan Kestens, co-lead ADM Think Tank New Technology

Lees het uitgebreide artikel hier.

Ook interessant voor jou

NEW Linked In post Event alerts 2025 4
  • New technology

Quantum Readiness: Zo krijg je jouw organisatie digitaal veilig voor de quantumrevolutie

Quantumcomputers zijn geen verre toekomstmuziek meer. Krachtige, breekbare quantumhardware lijken dan wel 15 tot 20 jaar verwijderd, toch kan de impact op de beveiliging van je data al vandaag beginnen. 

20250423 Cyber Seminar 003
  • New technology

Waar België goed in is: wafels, chocolade en cybersecurity

Als het goed is, zeggen we het ook: België behoort tot de Europese top op het vlak van cybersecurity. Belgische bedrijven zien meer en meer in dat een goede IT-beveiliging geen rem op groei hoeft te zijn.

Standard quality control collage concept
  • New technology

GDPR op mensenmaat

Na deze blog + tips ben je weer helemaal mee met GDPR!