Sciences humaines | Le 22 juillet 2025, par Luc Grampivf. Temps de lecture : dix minutes.
littérature & sciences humaines
Sciences humaines | Le 22 juillet 2025, par Luc Grampivf. Temps de lecture : dix minutes.
Intelligence artificielle et diversité linguistique
La firme de Redmond lance une initiative d’investissement majeure en Europe, afin de développer des bases de données destinées aux modèles d’intelligence artificielle dans les langues européennes. Ce projet autour de l’intelligence artificielle rejoint les efforts déjà entrepris par des programmes comme Linguatec-IA, qui travaille depuis février dernier sur l’intégration des langues minoritaires d’Europe.
Microsoft a annoncé le 21 juillet 2025 un investissement de plusieurs millions de dollars destiné à enrichir les données numériques pour les modèles d’intelligence artificielle (IA) dans plus d’une dizaine de langues européennes. Cette initiative répond à une problématique cruciale déjà identifiée par les chercheurs européens : la « survie numérique » des langues du continent face à la domination de l’anglais dans l’entraînement des IA.
Selon Brad Smith, président de Microsoft, les modèles de langage actuels, comme MistralAI, ChatGPT, Claude ou Gemini, présentent des performances dégradées lorsqu’ils sont utilisés dans des langues disposant de données insuffisantes. Cette limitation technique des modèles d’IA pousse naturellement les utilisateurs à privilégier l’anglais, créant un cercle vicieux qui menace la diversité linguistique européenne. L’enjeu dépasse le simple aspect technologique pour toucher à la préservation culturelle et linguistique, comme l’illustre parfaitement le programme Linguatec-IA lancé en février 2025.
Ce programme européen de 1,5 million d’euros, dont un million financé par l’Union européenne, avait déjà posé les bases de cette réflexion en s’attaquant spécifiquement aux langues minoritaires des Pyrénées. Réunissant les universités de Toulouse, Perpignan, Pau, Bilbao et Navarre, Linguatec-IA travaille depuis plusieurs mois à intégrer le basque, le catalan, l’occitan, le gascon et l’aragonais dans les systèmes d’intelligence artificielle. Oihane Cantero, chercheuse à la fondation Elhuyar sur la langue basque et participante au programme, souligne cette disparité : alors que ChatGPT excelle pour disserter sur la ville de New York, il peine dramatiquement à évoquer le gascon dans les Landes, ou l’ollada (ouillade) catalane.
L’annonce de Microsoft vient donc amplifier cette démarche déjà engagée. Dès septembre 2025, l’entreprise prévoit d’installer à Strasbourg des antennes de ses centres de recherche. Ces structures auront pour mission d’étendre la disponibilité des données dans au moins 10 des 24 langues officielles de l’Union européenne, incluant des langues actuellement moins représentées comme l’estonien et le grec. Le projet comprend la numérisation de livres en langues non-anglophones et l’enregistrement de centaines d’heures d’audio de paroles de locuteurs dans différents idiomes.
Cette convergence d’initiatives révèle l’ampleur du défi à relever, l’usage de la langue se mêlant à toutes les manifestations culturelles d’une société, de la musique à la littérature, en passant par la presse ou la vie quotidienne. Les équipes de Linguatec-IA alimentent ainsi des systèmes d’IA en textes et enregistrements dans les langues régionales pyrénéennes, et développent également des synthétiseurs de voix dans ces différentes langues minoritaires. Microsoft adopte une approche similaire mais à plus grande échelle, s’engageant à ne conserver aucune propriété sur les données collectées, qui seront rendues accessibles au grand public en source ouverte (open source).
Cette approche s’inscrit dans une stratégie plus large de Microsoft visant à se positionner favorablement sur le marché européen – et ce, alors que la souveraineté numérique européenne constitue un sujet politique de plus en plus présent dans les débats. L’entreprise de Redmond accompagne cette annonce d’autres initiatives culturelles, notamment la création d’une réplique numérique de la cathédrale Notre-Dame de Paris, développée en partenariat avec l’Institut national du patrimoine (Inp) et l’entreprise française Iconem.
Bien que les géants de l’IA demeurent principalement américains et chinois, l’Europe développe ses propres acteurs du secteur. Des entreprises comme le français Mistral, la plateforme Hugging Face ou encore l’initiative TildeLM travaillent spécifiquement sur les modèles d’IA adaptés aux langues européennes, témoignant d’un écosystème en émergence. Ces efforts conjugués, des programmes académiques comme Linguatec-IA aux investissements industriels de Microsoft, dessinent une prise de conscience collective face au risque d’extinction numérique des langues européennes à l’ère de l’intelligence artificielle.
La Charte européenne des langues régionales ou minoritaires représente l’engagement majeur du Conseil de l’Europe pour la sauvegarde du patrimoine linguistique européen. Cette convention, adoptée le 25 juin 1992 par le Comité des Ministres (l’instance de décision du Conseil de l’Europe) et ouverte à la signature le 5 novembre suivant à Strasbourg, est entrée en vigueur au 1er mars 1998.
Élaborée à partir d’un texte proposé par la Conférence permanente des pouvoirs locaux et régionaux de l’Europe, la Charte constitue, avec la Convention-cadre pour la protection des minorités nationales, l’un des deux piliers de la politique européenne de protection des minorités. Son suivi est assuré par un comité d’experts indépendants qui veille à sa mise en œuvre effective.
L’originalité de la Charte réside dans son approche volontariste : le texte impose aux États parties des obligations de promotion active des langues minoritaires. Ces derniers doivent ainsi s’engager à favoriser l’utilisation de ces langues dans l’enseignement, la justice, l’administration publique, les médias, la culture, la vie économique et sociale, ainsi que dans la coopération transfrontalière.
Cette démarche promotionnelle complète les droits individuels des locuteurs de langues minoritaires garantis par la protection nationale et internationale des minorités. Elle renforce ainsi l’effectivité de ces droits dans la pratique quotidienne, permettant une véritable revitalisation des langues en danger.
Le champ d’application de la Charte concerne spécifiquement les langues régionales ou minoritaires, définies comme les langues pratiquées traditionnellement sur le territoire d’un État par des ressortissants formant un groupe numériquement inférieur au reste de la population. Ces langues doivent être distinctes de la ou des langues officielles de l’État concerné.
La convention s’applique également aux langues dépourvues de territoire, pratiquées par des locuteurs dans différents pays sans être langue officielle dans aucun d’entre eux : il s’agit typiquement des langues de diaspora, comme le yiddish ou l’arménien occidental.
Sont en revanche exclues du champ d’application les langues liées aux phénomènes migratoires récents ainsi que les dialectes des langues officielles.
L’ensemble des pays européens présente une riche mosaïque de langues minoritaires. Ainsi, l’Allemagne connaît des locuteurs du danois, du bas sorabe et du rromani. L’Autriche abrite pour sa part des communautés parlant le croate du Burgenland, le hongrois et le slovène. En Espagne, la diversité linguistique est particulièrement notable avec des langues minoritaires comme le basque, le catalan, le galicien et l’occitan. La Pologne reconnaît des minorités linguistiques telles que le kachoube, le lemkovien et le rromani, tandis que le Royaume-Uni protège des langues celtiques insulaires comme le cornique, l’irlandais et le gaélique d’Écosse. Signataire de la Charte, la France n’a pas à ce jour ratifié le texte, jugé contraire à la Constitution.
Luc Grampivf
Ressource : Microsoft veut améliorer les performances des IA dans les langues européennes (lorientlejour.com)
Ressource : L’intelligence artificielle au secours des langues régionales : "Il est indispensable de parler à ChatGPT en occitan" (radiofrance.fr)
Ressource : Un programme européen ambitionne de nourrir l’intelligence artificielle avec le basque, le catalan ou l’occitan (francebleu.fr)
Ressource : A propos de la Charte européenne des langues régionales ou minoritaires (coe.int)
Ressource : L’équipe du Congrès permanent de la langue occitane (locongres.org)
aragonais, basque, biais culturel, catalan, Conseil de l’europe, Convention-cadre pour la protection des minorités nationales, diversité linguistique, diversité culturelle, gascon, Hugging Face, intelligence artificielle, langues minorisées, langues minoritaires, langues régionales, Microsoft, Mistral, numérisation, occitan, patrimoine culturel, patrimoine linguistique, préservation linguistique, souveraineté numérique, Strasbourg, synthèse vocale, Union européenne
Entités nommées fréquentes : IA, Linguatec-IA, Microsoft, Europe, Charte, ChatGPT, Strasbourg, Union.
Sciences humaines | Le 17 juillet 2025, par Sambuc éditeur.
Rechercher un article dans l’encyclopédie...