Een kind met hoofdcamera leerde AI hoe kleintjes taal leren
Kunstmatige intelligentie heeft een nieuwe mijlpaal bereikt: die om ons te helpen begrijpen hoe kinderen hun moedertaal leren. Dit is wat een zeer interessante studie heeft onthuld.
Het leren va de taal bij mensen en AI
New York University/Youtube screenshot
Kunstmatige intelligentie helpt veel industrieën om ongekende informatie te verzamelen en ongelooflijk snel nieuwe ontdekkingen te doen in vergelijking met het verleden. Uit onderzoek aan de New York University bleek hoe AI erin slaagde een taal te leren via een camera die op een helm was geplaatst die werd gedragen door een 18 maanden oude jongen, Sam. Dit systeem hielp onderzoekers begrijpen hoe mensen een taal leren, zei co-auteur Wai Keen Vong. "Hoe leren jonge kinderen nieuwe woorden te associëren met specifieke objecten of visueel weergegeven concepten? Deze fel bediscussieerde kwestie bij de vroege taalverwerving wordt traditioneel in laboratoria onderzocht, waardoor de generaliseerbaarheid tot situaties in de echte wereld wordt beperkt", aldus de studie.
Vanaf de leeftijd van zes tot negen maanden beginnen kinderen hun eerste woorden te leren, waarbij ze deze verbinden met de objecten waarnaar ze verwijzen en visueel observeren. Rond de leeftijd van twee jaar kunnen ze ongeveer driehonderd woorden herkennen, rond de leeftijd van vier kennen ze er duizend. De AI kon eenvoudig leren door associaties te maken tussen woorden en beelden die zij als verbonden beschouwden, zonder enige voorafgaande programmering van taalkennis. Dit lijkt de cognitieve theorieën te ondermijnen dat mensen aangeboren kennis nodig hebben over hoe taal werkt om betekenis aan een bepaald woord te geven.
De AI observeert scènes van het leven via de helm die het kind draagt
New York University/Youtube screenshot
De camera gemonteerd op de helm gedragen door Sam, uit Adelaide, Australië, registreerde 61 uur activiteit en verzamelde episodes van het dagelijks leven van het kind vanuit zijn gezichtspunt. Sam droeg de met camera uitgeruste helm ongeveer een uur lang twee dagen per week gedurende anderhalf jaar, van zes tot vijfentwintig maanden oud. Nadat de gegevens waren verzameld, trainde het team hun AI-model, een neuraal netwerk dat de hersenstructuur simuleert, op de beelden en woorden die het kind ziet en hoort. In totaal ontving de AI 250.000 woorden en de bijbehorende beelden, die Sam observeerde en hoorde tijdens activiteiten als eten, spelen en lezen.
Het AI-model maakte gebruik van contrastief leren om te begrijpen welke afbeeldingen met woorden geassocieerd zijn en welke niet, om zo informatie te genereren die kan worden gebruikt om te voorspellen welke objecten met welke termen overeenkomen. Tijdens de test om het model op de proef te stellen, vroegen de onderzoekers de kunstmatige intelligentie om een woord aan een van de vier voorgestelde afbeeldingen te koppelen: dit is dezelfde test die wordt gebruikt om de taalvaardigheid bij kinderen te evalueren. Op dit punt demonstreerde de AI zijn vermogen om in 62% van de gevallen correcte associaties te maken, door woorden als "bal" en "wieg" te herkennen. In sommige gevallen kon hij de termen associëren met afbeeldingen die niet op de camera te zien waren, zoals “hond” en “appel”, met een succespercentage van 35%.
AI kan taal leren via de ogen en oren van een kind
New York University/Youtube screenshot
Als een woord meerdere beeldassociaties had, zoals “eten” of “speelgoed”, was het leren ingewikkelder. Hoewel het onderzoek werd uitgevoerd met gegevens verkregen van slechts één kind, wat twijfel zou kunnen doen rijzen over de algemene toepasbaarheid ervan, benadrukken de resultaten dat kinderen tijdens hun eerste levensdagen veel kunnen leren dankzij het creëren van associaties tussen verschillende sensorische bronnen. Natuurlijk is het leren van een taal voor een mens gemakkelijker dan voor een AI-model: kinderen ervaren veel meer dingen in de echte wereld, terwijl kunstmatige intelligentie wordt getraind op de associatie tussen beelden en geschreven woorden, zonder enige empirische interactie. Kinderen leren bijvoorbeeld vrijwel onmiddellijk de betekenis van het woord “handen”, juist omdat ze deze voor veel dingen gebruiken, zoals Vong uitlegt: “Kinderen hebben hun handen, ze hebben er veel ervaring mee. Dit is zeker een ontbrekend onderdeel van ons model".
Hoewel veel machine learning-modellen gebruik maken van oneindig veel data om tekst te produceren, heeft onderzoek uiteindelijk aangetoond dat dit proces eenvoudiger kan zijn dan verwacht. Brenden Lake, universitair hoofddocent psychologie en datawetenschap aan de Universiteit van New York en senior auteur van het onderzoek, zei dat "de huidige modellen niet alle input nodig hebben die nodig is om betekenisvolle generalisaties te maken. We hebben voor het eerst aangetoond dat het mogelijk is om een AI-model te trainen om woorden te leren door de ogen en oren van een individueel kind."
Wederom een verrassend resultaat, zowel in termen van AI-mogelijkheden als kennis van het leren van menselijke talen bij kinderen.