Model Collapse dreigt: AI komt in een eindeloze loop

Artificial Intelligence (AI ) ontwikkelt zich steeds sneller en sneller. Inmiddels is bijna de helft van al het internetverkeer bots en AI. Er komt steeds meer informatie op het internet te staan dat volledig of deels AI-gegenereerd is. Dit vormt een probleem voor de toekomst van AI. AI wordt namelijk getraind op content van het internet. En als er steeds meer content door AI gepubliceerd wordt zal AI dus trainen op zijn eigen output, wat kan leiden tot een ‘Model Collapse’.

Garbage in, garbage out

Dat AI zichzelf traint op zijn eigen output wordt ook wel ‘Garbage in, garbage out’ (GI/GO) genoemd. Dit houdt in dat er slechte of onjuiste informatie wordt ingevoerd, waardoor nog slechtere resultaten eruit krijgt. Als de trainingsdata vol zit met desinformatie zal de output ook onjuist zijn.

Model Collapse

‘’De eerste AI-modellen zijn getraind op menselijke content en ook transcripties van bijvoorbeeld YouTube video’s’’, vertelt Matti van Engelen, AI lead bij SparkOptimus. Deze data had weinig tot geen vorm van toegepaste AI. Tegenwoordig is bijna de helft van het internetverkeer bots en AI. Deze bots publiceren bijvoorbeeld content op het internet dat volledig of deels AI-gegenereerd is. De huidige en toekomstige AI-modellen worden dan ook getraind op deze AI-gegenereerde content op het internet. Dit maakt dat AI in een soort loop terecht kan komen waarin AI zichzelf traint op zijn eigen output. Deze loop zorgt ervoor dat de kwaliteit en betrouwbaarheid van AI verslechterd. ‘’AI zal zichzelf hierdoor meer napraten en meer in een hoekje gaan zitten’’, aldus Van Engelen.

De modellen worden ook getraind om overtuigend te zijn. ‘’AI is heel goed in het verzamelen van data, maar ook heel goed in het overtuigend overbrengen van onjuiste informatie’’, vertelt Van Engelen. En omdat AI grotendeels getraind wordt op westerse data ontstaat er een kans dat AI vooroordelen kan ontwikkelen. Ook onjuistheden zullen overdreven en geëchood worden wanneer AI op zichzelf blijft trainen.

Watermerk

Er zijn nog geen concrete regels hoe bedrijven moeten omgaan met deze trainingsdata. Een mogelijke oplossing voor deze loop zijn watermerken. Zo zouden AI-modellen verschil kunnen maken tussen menselijke en AI-gegenereerde data. Het tekst-naar-video-model Sora2 van OpenAI heeft al een watermerk bijvoorbeeld.

Lees verder

Geselecteerd door de redactie

Ey!Daily de Podcast Afl. 4

Helaas is de laatste aflevering van Ey!Daily de Podcast toch echt aangebroken. Met spijt in ons hart nemen wij afscheid. Maar niet voordat we...

Het is oneerlijk dat kleine partijen niet bij verkiezingsdebatten zijn

D66, PVV en VVD zijn de drie grote winnaars van de Tweede Kamerverkiezingen. Dit is geen verrassing als je voornamelijk de televisiedebatten hebt gevolgd....

19 zetels voor CDA, Henri Bontenbal: “Dit is fantastisch”

https://vimeo.com/1132119049?share=copy&fl=sv&fe=ci Het was een feestje bij de CDA verkiezingsuitslag in Scheveningen. Volgens de eerste exitpoll kreeg de partij 19 zetels in de Tweede Kamer. Henri...

Deel dit bericht