In 2026 zullen we geen data meer hebben waarmee we kunstmatige intelligentie kunnen trainen: wat betekent dit?

Janine image
door Janine

17 November 2023

In 2026 zullen we geen data meer hebben waarmee we kunstmatige intelligentie kunnen trainen: wat betekent dit?

Kunstmatige intelligentie is onderhand op de een of andere manier onderdeel van ons leven geworden. De opkomst van verschillende generatieve AI’s heeft echter geleid tot een zekere alarmering onder onderzoekers: de gegevens om kunstmatige intelligentie te trainen zouden eerder op kunnen raken dan we denken. In dit artikel zullen we bekijken waarom het gebrek aan gegevens voor het trainen van AI een probleem is, en wat de oplossingen zijn.

Hoe kunstmatige intelligentie wordt getraind

Hoe kunstmatige intelligentie wordt getraind

Pexels

Voor het trainen van de algoritmen die als basis dienen voor generatieve AI is een grote hoeveelheid data nodig. Verder is het van belang dat deze data van hoge kwaliteit zijn, om ook de kwaliteit van de antwoorden te verhogen. Om enkele voorbeelden te geven: ChatGPT is getraind op 570 Gigabytes aan tekst, oftewel ongeveer 300 miljard woorden. En hetzelfde gebeurde voor algoritmen die afbeeldingen genereren, zoals Dall-E, getraind op bijna 6 miljard tekst-beeldparen. Kortom: om kunstmatige intelligentie te hebben die echt nuttig is in het dagelijks leven, heb je heel veel tekst nodig die ze kan trainen.

Het probleem is dat, zoals we al zeiden, deze gegevens van hoge kwaliteit moeten zijn. Om te begrijpen waarom, is het voldoende jezelf één vraag te stellen: willen we echt dat ChatGPT traint op alle sociale media-posts die we elke dag zien? We zouden het risico kunnen lopen op mislukkingen zoals die van Microsoft, die racistische reacties kreeg van een generatieve AI die was getraind op Twitter-inhoud. De data moeten dus van hoge kwaliteit zijn, en hier stuiten we op het tweede probleem: er zijn er niet genoeg. Volgens sommige onderzoekers zouden de tekstgegevens van hoge kwaliteit in 2026 zelfs op kunnen raken. En dan?

De toekomst van kunstmatige intelligentie: hoe zal de training plaatsvinden?

De toekomst van kunstmatige intelligentie: hoe zal de training plaatsvinden?

Pexels

Het alarm gelanceerd over data om kunstmatige intelligentie te trainen is op dit moment slechts een alarm. Ontwikkelaars zouden algoritmen kunnen optimaliseren en zo kunnen leiden tot generatieve AI’s die:

  • beter gebruik maken van bestaande data;
  • geneigd zijn minder data te gebruiken;
  • de vereiste ecologische voetafdruk verkleinen.

Dit alternatief bestaat echter uit veel maren en enkele mitsen. Een andere optie is die van een overeenkomst met grote uitgevers, voor vrije toegang van AI tot nieuwe boeken en bestaand literair erfgoed. Op deze manier zou het ook mogelijk zijn om het gebruik van trainingsgegevens te vermijden zonder de auteursrechthouders te compenseren. Ten slotte is er een oplossing waar nog niet veel over gesproken wordt: het trainen van kunstmatige intelligentie met synthetische data, dat wil zeggen data geproduceerd door een kunstmatige intelligentie.

AI trainen met door AI geproduceerde data: dit is de toekomst

AI trainen met door AI geproduceerde data: dit is de toekomst

Freepik

Precies, er zijn bedrijven die het datatekort op een “creatieve” manier aanpakken en synthetische data produceren waarmee ze AI kunnen trainen. Enkele voorbeelden van deze aanpak zijn Mostly AI en Clearbox AI, die kunstmatige intelligentie trainen met gegevens die door kunstmatige intelligentie worden geproduceerd. Dit zijn algoritmen gebaseerd op eigen technologie die wiskundige simulaties van echte situaties weergeven. Synthetische data respecteert de privacy van mensen en verlaagt de kosten die gepaard gaan met toegang tot gevoelige gegevens.

Aan de andere kant richten voorstanders van synthetische data zich op de privacy factor, maar ook op het gebrek aan echte data van hoge kwaliteit. Met behulp van door AI gecreëerde data worden deze problemen opgelost en kunnen generatieve modellen worden getraind, zoals bedrijven dat willen. Misschien blijft er maar één dilemma over: op welke data zijn de AI’s getraind die de data produceren waarmee de AI’s kunnen worden getraind?