« Humanités numériques »

Rédactique, ou ingénierie d’invites

Domaine d’étude en intelligence artificielle et rhétorique

Ensemble des techniques de formulation de requêtes envoyées à un agent d’intelligence artificielle, la rédactique, ou ingénierie d’invites (prompt ingineering) hérite d’une tradition rhétorique visant à modéliser le discours. Si l’invention de ce terme coïncide à la démocratisation extrêmement rapide de l’intelligence artificielle générative survenue il y a quelques années, et si l’idée de rédactique, entendue comme processus d’automatisation de la production écrite, apparaît avec l’informatique et le traitement du langage (TAL), on peut en retracer le parcours dès l’invention de la rhétorique, dans laquelle les techniques du discours visent déjà à une sorte de production réglée.

Dans un sens restreint, la rédactique est le terme français, proposé par l’Office québécois de la langue française en septembre 2023 afin de traduire l’anglais prompt engineering, cette pratique d’ingénierie de requêtes (ou invites) destinées aux grands modèles de langage (LLM) : autrement dit, il s’agit d’optimiser, dans un sens qu’on va préciser, l’adéquation entre la commande émise par l’utilisateur dans une langue donnée, et la production (textuelle, audiovisuelle ou autre) opérée par l’intelligence artificielle générative.

Dans un sens plus large, on peut aussi entendre la rédactique comme « l’ensemble des techniques et outils informatiques visant à alléger, à accélérer et à systématiser » le processus de rédaction, et les tâches connexes à celle-ci : en d’autres termes, de même que pour la traductique (visant au automatiser la traduction de textes), il s’agit d’envisager la production de contenus écrits sous un angle industriel, automatique ou du moins technique.

Une machine rhétorique : du « modèle de texte » au modèle de langue

Alors que l’ingénierie du prompt naît avec l’apparition et surtout la popularisation des grands modèles génératifs de type agent conversationnel, la rédactique comme automatisation de l’écriture se rattache à d’autres pratiques, techniques ou artistiques, qui ont tenté de systématiser la création de discours ou de textes. Ainsi, dans l’antiquité grecque (v^e siècle avant l’ère), la rhétorique se développe comme une technique du discours, « ensemble de règles, de recettes dont la mise en œuvre permet de convaincre l’auditeur » et qui, selon Barthes, en régissant par le plan l’ordre des parties du discours, prend peu à peu la forme d’un « moule », voire d’une machine :

Dans la « machine » rhétorique, ce que l’on met au début, émergeant à peine d’une aphasie native, ce sont des matériaux bruts de raisonnement, des faits, un « sujet » ; ce que l’on trouve à la fin, c’est un discours complet, structuré, tout armé pour la persuasion.

Roland Barthes, « L’Ancienne rhétorique », Communications, 1970

Parmi les dispositifs inventés dans ce sens, on peut compter la célèbre machine à argumenter du théologien Raymond Lulle, l’Ars generalis ultima, dans laquelle théories, sujets et prédicats se déplacent suivant des guides et se combinent, pour former des propositions vraies ou fausses. D’abord appelée Ars compendieuse inveniendi veritatem (L’art concis de trouver la vérité), cette œuvre à laquelle Lulle consacrera plusieurs années apparaît comme une véritable machine à calculer des propositions, à partir d’une logique de combinaisons.

La découverte et l’articulation d’arguments rhétoriques (inventio et dispositio) apparaît ainsi comme une combinatoire, au point que c’est l’arrangement nouveau qui définit l’inédit d’un propos : « Qu’on ne dise pas que je n’ai rien dit de nouveau : la disposition des matières est nouvelle » (Pascal). Cette combinatoire, avec d’autres méthodes, allait être exploitée par les écrivains et mathématiciens de l’Oulipo pour construire leurs textes de littérature potentielle, « en quantité illimitée, potentiellement productible jusqu’à la fin des temps, en quantités énormes, infinies pour toutes fins pratiques ». Ici, le problème est envisagé en quelque sorte à l’envers : en décidant de contraintes dans l’écriture, il s’agit pour l’oulipien de restreindre la potentialité « illimitée » du langage (Chomsky, 1957) pour aboutir à des œuvres déterminées.

Avec l’essor de l’informatique et du traitement automatique de la langue, la génération automatique de textes (GAT) s’est développé pour répondre à une problématique d’interface homme-machine, comme processus réciproque de la compréhension automatique : la production d’énoncés en langage naturel, grammaticalement corrects, sémantiquement cohérents et pragmatiquement pertinents, à partir de représentations informatisées (Laurence Danlos, « Génération automatique de textes en langue naturelle », LINX, 1991).

Une difficulté non négligeable, toutefois, vient de l’impossibilité de généraliser les représentations abstraites pouvant donner lieu à un traitement automatique par un système de génération : chaque « niveau de représentation abstrait » demeure à l’échelle d’un domaine d’application spécifique. En d’autres termes, chaque système de génération automatique de texte constitue un « bricolage » propre à un domaine d’application.

La solution est alors de concevoir des systèmes basés sur des règles, des combinaisons de phrases et des variantes dans la formulation. Ces systèmes peuvent être utilisés en particulier pour rédiger des contenus répétitifs à partir de données : bulletins météo, commentaires boursiers, etc. ; mais également dans des applications plus critiques (rédaction d’un constat amiable à partir des données relevées).

Des réponses à des questions

En 2018, des chercheurs du laboratoire de Salesforce Research ont conçu et réalisé l’idée que l’ensemble des tâches et domaines spéciaux abordés par le traitement automatique du langage (traduction, fouille de texte, résumé, prédiction de séquences, analyse des sentiments, etc.) puisse être modélisé comme un problème « de réponses à des questions dans un contexte donné » (Bryan McCann, Richard Socher et al., 2018) : leur modèle, appelé Multitask Question Answering Network (MQAN), préfigure les récents agents conversationnels basés sur l’apprentissage profond.

L’apparition, et surtout l’explosion de popularité des grands modèles de langage, sous la forme d’agents conversationnels (du type ChatGPT), a bouleversé les choses : entraînés sur d’immenses corpus de textes (quasiment l’ensemble des textes numérisés actuellement disponibles), ces modèles n’encapsulent pas que des connaissances linguistiques poussées ; ils disposent en effet, pour établir leur prédiction générative à partir d’une invite (prompt), des connaissances générales et particulières contenues dans leur corpus d’entraînement. En ce sens, les LLM semblent bien constituer un codage universel de l’ensemble des représentations abstraites pouvant être formulées par le langage : il est ainsi possible de faire rédiger une recette de cuisine, en faisant bon usage des données pragmatiques de base (températures de cuisson, ingrédients miscibles, etc.) ou plus complexes (bonnes associations d’aliments), et en répondant correctement à l’attente de l’utilisateur concernant le résultat ; certains chercheurs ont également étudié la faculté, remarquable, de modèles de langue généralistes et non-affinés à maîtriser le jeu d’échecs, en utilisant la notation algébrique pour décrire les coups (Adam Karvonen, 2024).

Grands modèles de langue et ingénierie d’invites

Les LLM récents, basés sur des modèles de type transformeur inventés par Google en 2017 (Ashish Vaswani, Illia Polosukhin et al.) sont très puissants, et sont devenus, dans la récente course à l’intelligence artificielle générative, le principal fer de lance des outils basés sur l’IA. Mais ces grands modèles de prédiction, basés sur de vastes réseaux de neurones formels, sont aussi particulièrement instables dans leurs réponses, en comparaison des outils classiques de génération automatisée (modèles à règles).

Cette problématique, appelée « problème d’alignement », étudie l’adéquation (éthique, logique et pragmatique) des réponses d’un algorithme, aux attentes de ses développeurs et de ses utilisateurs. La rédactique se rapporte dès lors à l’ensemble des techniques visant à s’assurer, lors de l’utilisation d’un modèle de langage donné, du rapport des réponses à une norme attendue. Avec l’affinage des modèles (en anglais fine tuning), la rédactique (entendue comme ingénierie d’invites, prompt engineering) constitue l’une des deux principales méthodes pour répondre au problème d’alignement.

Plus précisément, la rédactique désigne l’ensemble des techniques de rédaction de textes, « orientées vers la formulation précise de requêtes (prompt en anglais) envoyées à un système d’intelligence artificielle, en particulier à un grand modèle de langage, en vue d’en améliorer le fonctionnement ou d’en exploiter efficacement les capacités pour obtenir des résultats plus pertinents ».

Méthodes de rédaction des requêtes

Les méthodes de rédaction des requêtes, ou de rédactique, s’appuient sur la connaissance ou la découverte, prenant parfois la forme d’une heuristique, des propriétés des grands modèles de langage : dans le cas du modèle transformeur, le plus employé aujourd’hui dans la génération de texte, citons le fait que ces modèles de langue disposent de représentations de connaissances extra-linguistiques, qu’ils possèdent des limites connues dans les tâches de raisonnement logique (à titre d’exemple, le transformeur maîtrise mal l’impermutabilité des propositions), et que les prédictions sur lesquelles ils reposent sont probabilistes (incertitude des réponses). Un autre point central est le fait que ces modèles reposent sur un principe de mimétisme et de maximum de vraisemblance dans leurs prédictions, ce qui conduit à considérer l’importance, à ce titre, des exemples fournis au modèle dans la requête, laquelle constitue un lieu « d’apprentissage en contexte ».

Cet apprentissage en contexte des modèles donne lieu à une terminologie du prompt ingineering, inspirée des méthodes d’apprentissage statistique, concernant le rapport du modèle aux exemples : les apprentissages few-shot et zero-shot. On parle d’apprentissage « en peu de coups » (few-shot), par opposition à l’apprentissage supervisé conventionnel, lorsqu’un modèle est capable de résoudre une tâche (effectuer des prédictions valides) à partir d’un très petit nombre d’exemples étiquetés : cela tient à la capacité du modèle préentraîné à généraliser ses connaissances à de nouvelles tâches. L’apprentissage « zéro coup » (zero-shot), ou apprentissage sans exemple, désigne pour sa part la faculté d’un modèle d’IA de s’adapter à une nouvelle tâche en s’appuyant uniquement sur l’exploitation des connaissances acquises au cours de tâches précédentes. Les apprentissages « en peu de coups » et « zéro coup » ont été décrits comme des propriétés émergentes des grands modèles de langage, soit des propriétés absentes de modèles de plus petite taille, et présentes dans des modèles plus grands :

La capacité à effectuer une tâche à partir de quelques invites est émergente lorsqu’un modèle a des performances aléatoires jusqu’à une certaine échelle, après quoi ses performances augmentent bien au-delà du niveau aléatoire.

Jason Wei, William Fedus et al., « Emergent Abilities of Large Language Models », 2022

Dans la rédaction d’invite, l’utilisateur pourra ainsi tirer parti de la faculté des modèles à effectuer des tâches à partir de peu d’exemples (pour des modèles de relative petite taille) ou même d’aucun (pour les modèles les plus récents).

Outre le fait de s’assurer de l’adéquation entre les requêtes et les résultats retournés, un utilisateur (par exemple une entreprise souhaitant développer ou commercialiser un produit utilisant l’intelligence artificielle dans un but précis) recourt à la rédactique pour expérimenter différents formats de requêtes à des fins d’évaluation, ou pour détecter des erreurs et des anomalies textuelles (méthode essai-erreur). La rédactique s’inscrit ainsi dans un processus itératif, dans la mesure où les requêtes doivent le plus souvent être affinées à plusieurs reprises avant d’obtenir le résultat escompté.

Rapidement adoptée par les utilisateurs des agents d’IA, l’étude des techniques et méthodes de rédaction des requêtes, ou prompts, a rapidement donné lieu à une grande diversification des terminologies et des stratégies.

Chaîne de pensée. — L’importance d’inciter les modèles de langage à segmenter leur réponse en étapes a été relevée dès 2022 par des chercheurs de chez Google (« Chain-of-Thought Prompting Elicits Reasoning in Large Language Models », Jason Wei, Denny Zhou et al., 2022) : ce procédé améliore significativement la faculté de « raisonnement complexe » du modèle, et son aptitude à traiter des tâches difficiles dans divers domaines (« arithmetic, commonsense, and symbolic reasoning tasks »).

De nombreux papiers ont depuis étudié le principe d’une « chaîne de pensée », et montré que cela s’appliquait aussi bien à la suggestion à partir de quelques exemples (few-shot), qu’à la simple incitation sans soumettre d’exemples explicites (zero-shot ; Takeshi Kojima, Yusuke Iwasawa et al., 2023) :

Nous démontrons que les LLM sont des modèles de raisonnement sans exemple (zero-shot) corrects, en ajoutant simplement « Réfléchissons étape par étape » avant chaque réponse.

Takeshi Kojima, Yusuke Iwasawa et al., « Large Language Models are Zero-Shot Reasoners », 2023

Apprentissage en contexte. — L’apprentissage en contexte (in-context learning) fait référence à la capacité d’un modèle à se conditionner sur une séquence d’invites composée d’exemples en contexte (paires entrée-sortie correspondant à une tâche) ainsi que sur une nouvelle entrée de requête, et à générer la sortie correspondante.

Les réponses des LLM à certains problèmes peuvent être affinées en fournissant quelques exemples de résultats attendus : c’est en particulier l’approche privilégiée pour les petits modèles. Cette technique, qui exploite la capacité des modèles de langue à « apprendre en contexte », à partir des requêtes elles-mêmes (Shivam Garg, Gregory Valiant et al., 2022).

Divulguer l’incertitude. — La prédiction des éléments (tokens) d’un texte par un modèle de langage génératif est associée à des probabilités variant largement selon le contexte (difficulté de la question, richesse ou pauvreté du corpus d’entraînement sur un sujet, etc.) : la sortie du modèle de langage est toutefois celle d’un texte achevé, bien rédigé, qui ne porte généralement pas d’indice d’incertitude. Une technique publiée en 2022 consiste à inciter le modèle à exprimer, avec des mots, l’incertitude de ses propres productions. Les chercheurs ont pu calibrer l’estimation de cette incertitude, et montrer que l’incertitude de la prédiction du modèle est « généralement corrélée à l’incertitude épistémique des réponses » (Stephanie Lin, Jacob Hilton, Owain Evans, 2022)

Vers la génération augmentée par récupération (RAG)

Après un emballement sur le marché de l’emploi vers 2023, l’ingénierie d’invite peut aujourd’hui sembler « obsolète » en raison de l’évolution rapide des modèles de langue, dont les capacités de compréhension s’améliorent à un rythme très rapide, au prix d’immenses investissements des quelques entreprises leader du marché (OpenAI, Microsoft, Alphabet, Anthropic, Meta, Amazon, etc.).

Toutefois, d’après une étude menée en 2024, les performances des LLM demeurent largement influencées par le choix des termes et la rédaction des invites qui leur sont soumises (Sander Schulhoff, Philip Resnik et al., 2024). D’abord nécessaire pour éviter des contresens et les erreurs dans les réponses des agents de dialogue, l’ingénierie d’invite est d’une part devenue moins critique avec l’apparition de modèles interprétant mieux les intentions des utilisateurs. Surtout, l’approche de cette rédactique évolue pour être elle-même sous-traitée par l’automatisation : si une requête détaillée et bien rédigée tendra en moyenne à produire de meilleurs résultats (indépendamment de la puissance du modèle), il devient possible d’automatiser la rédaction des prompts grâce aux agents d’IA eux-mêmes, en déléguant le processus itératif jusqu’à obtenir des résultats satisfaisants.

D’autre part, sur le plan de la fiabilité des connaissances du modèle, la tendance qui se dégage aujourd’hui est d’encadrer le comportement de l’agent par la fourniture d’une base de données spécialisée (base de connaissances fiable et extérieure aux sources de données d’entraînement, souvent propre à une organisation), dans laquelle l’agent conversationnel puise pour répondre de façon plus spécifique aux invites : c’est ce qu’on appelle la génération augmentée par récupération, ou génération à enrichissement contextuel, en anglais retrieval-augmented generation (RAG).

Cette technique, dans laquelle le grand modèle de langage ne se contente pas d’utiliser les connaissances acquises lors de son entraînement, contribue à résoudre de nombreuses problématiques dans l’usage fiable des LLM : hallucination (informations fictives ou fausses en l’absence de réponse à une question), présentation d’informations génériques, faillibles ou obsolètes, confusion terminologique (lors de l’usage dans des domaines spécifiques).

Raphaël Deuff