Artificial Intelligence (AI ) ontwikkelt zich steeds sneller en sneller. Inmiddels is bijna de helft van al het internetverkeer bots en AI. Er komt steeds meer informatie op het internet te staan dat volledig of deels AI-gegenereerd is. Dit vormt een probleem voor de toekomst van AI. AI wordt namelijk getraind op content van het internet. En als er steeds meer content door AI gepubliceerd wordt zal AI dus trainen op zijn eigen output, wat kan leiden tot een ‘Model Collapse’.
Garbage in, garbage out
Dat AI zichzelf traint op zijn eigen output wordt ook wel ‘Garbage in, garbage out’ (GI/GO) genoemd. Dit houdt in dat er slechte of onjuiste informatie wordt ingevoerd, waardoor nog slechtere resultaten eruit krijgt. Als de trainingsdata vol zit met desinformatie zal de output ook onjuist zijn.
Model Collapse
‘’De eerste AI-modellen zijn getraind op menselijke content en ook transcripties van bijvoorbeeld YouTube video’s’’, vertelt Matti van Engelen, AI lead bij SparkOptimus. Deze data had weinig tot geen vorm van toegepaste AI. Tegenwoordig is bijna de helft van het internetverkeer bots en AI. Deze bots publiceren bijvoorbeeld content op het internet dat volledig of deels AI-gegenereerd is. De huidige en toekomstige AI-modellen worden dan ook getraind op deze AI-gegenereerde content op het internet. Dit maakt dat AI in een soort loop terecht kan komen waarin AI zichzelf traint op zijn eigen output. Deze loop zorgt ervoor dat de kwaliteit en betrouwbaarheid van AI verslechterd. ‘’AI zal zichzelf hierdoor meer napraten en meer in een hoekje gaan zitten’’, aldus Van Engelen.
De modellen worden ook getraind om overtuigend te zijn. ‘’AI is heel goed in het verzamelen van data, maar ook heel goed in het overtuigend overbrengen van onjuiste informatie’’, vertelt Van Engelen. En omdat AI grotendeels getraind wordt op westerse data ontstaat er een kans dat AI vooroordelen kan ontwikkelen. Ook onjuistheden zullen overdreven en geëchood worden wanneer AI op zichzelf blijft trainen.
Watermerk
Er zijn nog geen concrete regels hoe bedrijven moeten omgaan met deze trainingsdata. Een mogelijke oplossing voor deze loop zijn watermerken. Zo zouden AI-modellen verschil kunnen maken tussen menselijke en AI-gegenereerde data. Het tekst-naar-video-model Sora2 van OpenAI heeft al een watermerk bijvoorbeeld.






