Sambuc éditeur

littérature & sciences humaines

Actualités Dernières parutions Littérature Arts Encyclopédie Quiz Librairies francophones La maison Contact

Technologie | Le 16 mars 2024, par André Roussainville. Temps de lecture : huit minutes.


Voir et entendre comme un bébé : un nouveau modèle d’IA pour l’acquisition du langage

Intelligence artificielle et psycholinguistique

Dans un article publié le 2 février dernier, les chercheurs Wai Keen Vong, Wentao Wang, Emin Orhan et Brenden Lake décrivent un modèle de langage inspiré de l’apprentissage précoce de la langue chez l’enfant : particulièrement économe, le modèle d’intelligence artificielle développé adopte une démarche proche de la robotique, à l’opposé des grands modèles de langage (LLM) de type Transformer.

Série abstraite A04-XII / Israfil Dough, juin 2023
Série abstraite A04-XII / Israfil Dough, juin 2023 © Sambuc éditeur, 2025

En psycholinguistique, les expériences concernant l’acquisition précoce du langage chez l’enfant, au cours des deux premières années de sa vie, sont le plus souvent menées en laboratoire, ce qui tend à en limiter les possibilités de généralisation aux conditions réelles. Un article récent, publié dans la revue Science le 2 février 2024 par Wai Keen Vong, chercheur à l’université de New York, et trois autres auteurs, envisage la question sous un angle particulier et pragmatique, en lien avec les modèles d’intelligence artificielle (IA).

La question posée par Vong et son équipe était d’observer l’association, qui se produit chez l’enfant, entre de nouveaux mots entendus (prononcés par les adultes) et des objets perçus dans le champ de vision.

Les scientifiques ont disposé pour leur étude des enregistrements audio et vidéo d’un petit casque placé sur la tête d’un nourrisson, qui a participé à l’enquête entre ses six et vingt-cinq premiers mois. Ce flux capté à la première personne, et représentant en tout une soixantaine d’heures d’enregistrement, associait ainsi des images du monde et des objets perçus par l’enfant aux marques sonores des mots prononcés.

Grâce à ces données brutes, les scientifiques ont pu élaborer un petit modèle de correspondances, associant un même mot aux images d’un objet, et capable d’articuler ces mots comme des concepts simples et leurs sous-ensembles : les auteurs donnent ainsi l’exemple du mot «  puzzle », pour lequel le modèle distingue visuellement les puzzles d’animaux, d’alphabets, etc.

Ce modèle de langage, baptisé Child’s View for Contrastive Learning (CVCL, « vue de l’enfant pour un apprentissage contrastif »), permet ainsi de représenter des mots appris par un petit enfant à partir de son expérience du monde, et d’en construire une arborescence conceptuelle.

Langage naturel : des modèles, petits et gros

Dans le domaine de l’intelligence artificielle, un modèle de langage vise à fournir une description statistique d’un phénomène naturel, les langues parlées. Il peut s’agir de représenter la distribution des lettres, des mots, ou plus largement des formes syntaxiques, de façon à pouvoir mimer le fonctionnement des langues naturelles.

Depuis la fin des années 2010, l’approche principale de ce domaine de l’informatique réside dans ce qu’on a appelé les grands modèles de langage (Large language model, abrégé LLM), qui obtiennent des représentations complexes des phénomènes linguistiques à travers des réseaux de neurones artificiels profonds (Deep Learning) construits à l’aide de très vastes ensembles de données : ainsi, la première version de ChatGPT, le célèbre modèle Transformer lancé en 2022 et qui totalisait plus d’une centaine de milliards de paramètres, a fait intervenir plusieurs centaines de téraoctets de textes pour son « apprentissage ». Un ordre de grandeur très éloigné des capacités de lecture humaine, et plus encore des expériences sonores et visuelles d’un nourrisson.

En se centrant sur l’expérience d’un seul enfant, dans les premiers mois de sa vie, l’étude de Wai Keen Vong adopte une approche radicalement différente : d’une part, l’ensemble de données utilisées pour l’entraînement du modèle est extrêmement réduit par comparaison aux LLM. Même si l’étude ne vise pas établir la manière exacte dont se produit l’acquisition du langage chez l’homme, le modèle CVCL, par son économie, se rapproche davantage du processus d’acquisition du langage chez l’homme, dont les nourrissons disposent d’une capacité d’attention et de mémorisation limitée – surtout en regard des téraoctets de données mobilisées par les modèles de type Transformer. D’autre part, cette approche procède graduellement : les concepts acquis sont simples et se rapportent à un petit nombre de mots. Les résultats obtenus par le modèle de langage CVCL ne sont certes pas comparables aux capacités rédactionnelles des modèles génératifs les plus récents ; mais le résultat obtenu par l’équipe de Vong démontre la capacité de modèles de petite taille à acquérir des compétences linguistiques à partir de données extrêmement réduites, et sans hypothèses spécifiques.

Enfin, un aspect important du modèle étudié par Vong et al. est la multimodalité de l’approche : en associant dès l’abord les marques sonores aux images (contrairement aux LLM qui traitent des textes écrits seuls, indépendamment de représentations physiques), le modèle Child’s View for Contrastive Learning s’inscrit dans une interaction complexe entre des représentations d’objets (visuelles) et les sons qui les nomment, et qui est celle d’un corps avec son milieu : cette « corporéité » des algorithmes d’intelligence artificielle, associée à une exploration libre de l’environnement et à des retours de signaux moteurs, rapproche le champ de l’IA de celui de la robotique, et dote la première des impératifs stricts de la seconde : frugalité, réalisme, fiabilité.


André Roussainville



Entités nommées fréquentes : Wai Keen Vong, LLM, Transformer, CVCL, Vong.


L’actualité : derniers articles

« Carnets de salon »

Big Data & AI Paris 2025 : une édition au service de l’industrialisation de l’intelligence artificielle


Les 1er et 2 octobre derniers, s’est tenu le salon Big Data & AI Paris 2025. Retour sur une édition orientée vers l’adoption de ces technologies par les entreprises.

Technologie | Le 16 octobre 2025, par Sambuc éditeur.

nature et biologie

Golfe du Lion : une étude révèle les risques des éoliennes en mer pour les oiseaux migrateurs

Image de l'article `Golfe du Lion : une étude révèle les risques des éoliennes en mer pour les oiseaux migrateurs`
Image de l'article `Golfe du Lion : une étude révèle les risques des éoliennes en mer pour les oiseaux migrateurs` © Sambuc éditeur, 2025

Le programme Migralion alerte sur les dangers que représentent les futures éoliennes marines pour l’avifaune du golfe du Lion, zone de passage stratégique pour des millions d’oiseaux migrateurs.

Nature et biologie | Le 14 octobre 2025, par Sambuc éditeur.

nature et biologie

Liste rouge de l’UICN : les phoques arctiques et les populations d’oiseaux de plus en plus menacés

Image de l'article `Liste rouge de l’UICN : les phoques arctiques et les populations d’oiseaux de plus en plus menacés`
Image de l'article `Liste rouge de l’UICN : les phoques arctiques et les populations d’oiseaux de plus en plus menacés` © Sambuc éditeur, 2025

L’UICN tire la sonnette d’alarme : trois espèces de phoques arctiques voient leur statut dégradé, tandis que 61 % des oiseaux mondiaux sont en déclin de population.

Nature et biologie | Le 14 octobre 2025, par André Roussainville.

Rechercher un article dans l’encyclopédie...



Inscrivez-vous à la newsletter Sambuc !


Ce site utilise des cookies nécessaires à son bon fonctionnement et des cookies de mesure d’audience. Pour plus d’informations, cliquez ici.

En poursuivant votre navigation, vous consentez à l’utilisation de cookies.

Fermer