Encyclopédie › Technologie › Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Technologie | Le 16 mars 2024, par André Roussainville. Format : article (3 feuillets).

Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Intelligence artificielle et psycholinguistique

Dans un article publié le 2 février dernier, les chercheurs Wai Keen Vong, Wentao Wang, Emin Orhan et Brenden Lake décrivent un modèle de langage inspiré de l’apprentissage précoce de la langue chez l’enfant : particulièrement économe, le modèle d’intelligence artificielle développé adopte une démarche proche de la robotique, à l’opposé des grands modèles de langage (LLM) de type Transformer.

Série abstraite A04-XII / Israfil Dough, juin 2023 © Sambuc éditeur, 2026

En psycholinguistique, les expériences concernant l’acquisition précoce du langage chez l’enfant, au cours des deux premières années de sa vie, sont le plus souvent menées en laboratoire, ce qui tend à en limiter les possibilités de généralisation aux conditions réelles. Un article récent, publié dans la revue Science le 2 février 2024 par Wai Keen Vong, chercheur à l’université de New York, et trois autres auteurs, envisage la question sous un angle particulier et pragmatique, en lien avec les modèles d’intelligence artificielle (IA).

La question posée par Vong et son équipe était d’observer l’association, qui se produit chez l’enfant, entre de nouveaux mots entendus (prononcés par les adultes) et des objets perçus dans le champ de vision.

Les scientifiques ont disposé pour leur étude des enregistrements audio et vidéo d’un petit casque placé sur la tête d’un nourrisson, qui a participé à l’enquête entre ses six et vingt-cinq premiers mois. Ce flux capté à la première personne, et représentant en tout une soixantaine d’heures d’enregistrement, associait ainsi des images du monde et des objets perçus par l’enfant aux marques sonores des mots prononcés.

Grâce à ces données brutes, les scientifiques ont pu élaborer un petit modèle de correspondances, associant un même mot aux images d’un objet, et capable d’articuler ces mots comme des concepts simples et leurs sous-ensembles : les auteurs donnent ainsi l’exemple du mot «  puzzle », pour lequel le modèle distingue visuellement les puzzles d’animaux, d’alphabets, etc.

Ce modèle de langage, baptisé Child’s View for Contrastive Learning (CVCL, « vue de l’enfant pour un apprentissage contrastif »), permet ainsi de représenter des mots appris par un petit enfant à partir de son expérience du monde, et d’en construire une arborescence conceptuelle.

Langage naturel : des modèles, petits et gros

Dans le domaine de l’intelligence artificielle, un modèle de langage vise à fournir une description statistique d’un phénomène naturel, les langues parlées. Il peut s’agir de représenter la distribution des lettres, des mots, ou plus largement des formes syntaxiques, de façon à pouvoir mimer le fonctionnement des langues naturelles.

Depuis la fin des années 2010, l’approche principale de ce domaine de l’informatique réside dans ce qu’on a appelé les grands modèles de langage (Large language model, abrégé LLM), qui obtiennent des représentations complexes des phénomènes linguistiques à travers des réseaux de neurones artificiels profonds (Deep Learning) construits à l’aide de très vastes ensembles de données : ainsi, la première version de ChatGPT, le célèbre modèle Transformer lancé en 2022 et qui totalisait plus d’une centaine de milliards de paramètres, a fait intervenir plusieurs centaines de téraoctets de textes pour son « apprentissage ». Un ordre de grandeur très éloigné des capacités de lecture humaine, et plus encore des expériences sonores et visuelles d’un nourrisson.

En se centrant sur l’expérience d’un seul enfant, dans les premiers mois de sa vie, l’étude de Wai Keen Vong adopte une approche radicalement différente : d’une part, l’ensemble de données utilisées pour l’entraînement du modèle est extrêmement réduit par comparaison aux LLM. Même si l’étude ne vise pas établir la manière exacte dont se produit l’acquisition du langage chez l’homme, le modèle CVCL, par son économie, se rapproche davantage du processus d’acquisition du langage chez l’homme, dont les nourrissons disposent d’une capacité d’attention et de mémorisation limitée – surtout en regard des téraoctets de données mobilisées par les modèles de type Transformer. D’autre part, cette approche procède graduellement : les concepts acquis sont simples et se rapportent à un petit nombre de mots. Les résultats obtenus par le modèle de langage CVCL ne sont certes pas comparables aux capacités rédactionnelles des modèles génératifs les plus récents ; mais le résultat obtenu par l’équipe de Vong démontre la capacité de modèles de petite taille à acquérir des compétences linguistiques à partir de données extrêmement réduites, et sans hypothèses spécifiques.

Enfin, un aspect important du modèle étudié par Vong et al. est la multimodalité de l’approche : en associant dès l’abord les marques sonores aux images (contrairement aux LLM qui traitent des textes écrits seuls, indépendamment de représentations physiques), le modèle Child’s View for Contrastive Learning s’inscrit dans une interaction complexe entre des représentations d’objets (visuelles) et les sons qui les nomment, et qui est celle d’un corps avec son milieu : cette « corporéité » des algorithmes d’intelligence artificielle, associée à une exploration libre de l’environnement et à des retours de signaux moteurs, rapproche le champ de l’IA de celui de la robotique, et dote la première des impératifs stricts de la seconde : frugalité, réalisme, fiabilité.

André Roussainville

Entités nommées fréquentes : Wai Keen Vong, LLM, Transformer, CVCL, Vong.

Sambuc éditeur

Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Langage naturel : des modèles, petits et gros

L’actualité : derniers articles

« Journal culturel »

De l’organiste de la Blasiuskirche à Philidor, les anniversaires de musiciens en 2026 (1/3)

« Cinéphilie(s) »

« Je suis assez matérialiste en art » : François Bégaudeau, ou comment devenir bon spectateur

Actualités culturelles

23e Rendez-vous aux jardins : une invitation à voir et sentir

Sambuc éditeur

Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Langage naturel : des modèles, petits et gros

L’actualité : derniers articles

« Journal culturel »

De l’organiste de la Blasiuskirche à Philidor, les anniversaires de musiciens en 2026 (1/3)

« Cinéphilie(s) »

« Je suis assez matérialiste en art » : François Bégaudeau, ou comment devenir bon spectateur

Actualités culturelles

23e Rendez-vous aux jardins : une invitation à voir et sentir

Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Langage naturel : des modèles, petits et gros

« Journal culturel »

« Cinéphilie(s) »

« Je suis assez matérialiste en art » : François Bégaudeau, ou comment devenir bon spectateur

23e Rendez-vous aux jardins : une invitation à voir et sentir