Pour comprendre les modèles de langage, nous devons séparer le « langage » de la « pensée »

Herve Blanc
23 févr. 2023
8 min de lecture

Dernière mise à jour : 23 nov. 2023

Source Image : 123RF

Cet article fait partie de Démystifier l’IA, une série d’articles qui (tentent de) clarifier le jargon et les mythes entourant l’IA.

Les discussions à propos des modèles géants de langage (LLM) deviennent de plus en plus polarisée avec la sortie de modèles avancés tels que ChatGPT. Les arguments font autant état des LLM comme des « machines à penser » que des programmes stupides qui assemblent du texte mémorisé.

Pour dissiper la confusion, nous avons besoin d’un cadre différent pour penser aux LLM, affirment des chercheurs de l’Université du Texas à Austin et du Massachusetts Institute of Technology (MIT). Dans un article intitulé « Dissocier le langage et la pensée dans les grands modèles langagiers : une perspective cognitive », les chercheurs soutiennent que pour comprendre le pouvoir et les limites des LLM, nous devons séparer la compétence linguistique « formelle » de la compétence linguistique « fonctionnelle ».

Les LLM ont fait des progrès impressionnants sur le premier sujet, mais ont encore beaucoup de travail à faire sur le second, disent les chercheurs. Et cette distinction peut aider à clarifier le discours entourant les LLM et à trouver des moyens de construire des modèles qui « comprennent et utilisent le langage de manière humaine ».

Deux idées fausses sur les modèles linguistiques

“Comme pour tout, je pense que la façon dont les gens perçoivent les LLM est influencée par leur propre passé, leur formation et leur expérience.,” Kyle Mahowald, co-auteur de l’article et linguiste computationnel à UT Austin, a déclaré à TechTalks. “C’est passionnant que les LLM suscitent l’intérêt de tant de coins du monde universitaire : pas seulement le monde TAL, mais aussi la linguistique, les neurosciences, la philosophie, l’anthropologie, la sociologie, les sciences politiques, etc. Cela conduit naturellement à une diversité d’opinions sur les LLM et leurs capacités. Bien sûr, il en va de même pour nous. C’est en partie pourquoi nous avons mis « une perspective cognitive » dans le titre de notre article.”

Dans l’article, les chercheurs explorent deux idées fausses liées au langage et à la pensée. La première affirme qu’une entité qui est bonne en langage est également bonne en pensée, ce que les scientifiques décrivent comme un sophisme « bon au langage > bon à la pensée ».

Cette erreur conduit aux genres d’arguments selon lesquels les grands modèles linguistiques sont une étape vers les « machines pensantes » et l’intelligence artificielle générale (AGI).

La deuxième erreur, appelée « mauvais à la pensée > mauvais au langage », suggère que si un modèle de langage ne peut pas capturer pleinement la richesse et la sophistication de la pensée humaine, alors ce n’est pas un bon modèle de langage humain.

Cette ligne de pensée est marquée par la critique constante des modèles linguistiques pour leurs faibles capacités de raisonnement de bon sens et leur manque de connaissances cohérentes, et généralisables, du monde.

“Ces deux erreurs découlent en réalité de la même idée fausse : assimiler le langage et la pensée.,” Anna Ivanova, co-auteur de l’article et chercheur postdoctoral au MIT, a déclaré à TechTalks. “L’une des raisons pour lesquelles c’est une erreur que nous faisons naturellement dans la vraie vie, est due au fait que nous n’avons pas accès aux pensées d’une autre personne. Si nous voulons savoir à quel point quelqu’un est bon en tant que penseur, le mieux que nous puissions faire est souvent de lui poser une question et d’écouter sa réponse.”

L’article suggère que nous pouvons éviter ces erreurs si nous faisons la distinction entre la compétence linguistique formelle et fonctionnelle.

Modèles de langage (LLM) et compétence linguistique formelle

La linguistique formelle englobe les capacités requises pour produire et comprendre une langue donnée. Il comprend des règles linguistiques ainsi que des régularités statistiques qui ne peuvent pas être capturées par des règles.

L’architecture Transformer, qui est à la base des LLM d’aujourd’hui, s’est avérée être un très bon outil pour modéliser la compétence linguistique formelle. Les Transformers utilisent plusieurs couches de neurones, des mécanismes d’attention et un traitement parallèle pour effectuer une prédiction très précise du « mot suivant ».

Avec suffisamment de données d’apprentissage, un grand modèle de Transformer peut générer de longues séquences de texte avec des caractéristiques linguistiques cohérentes. Par exemple, les LLM peuvent effectuer un accord de longue distance (LDA) bien meilleur que le hasard (bien qu’ils ne soient toujours pas performants lorsqu’il y a des phrases imbriquées). Ils sont également bons pour traiter l’accord sujet-verbe, les questions QU et d’autres aspects de la linguistique sur lesquelles les approches passées ont généralement échoué.

“Bien qu’il soit tentant de déplacer les poteaux de but et de se concentrer sur ce que ces modèles sont toujours incapables de faire… nous soutenons que les progrès remarquables dans la capacité des LLM à saisir divers phénomènes linguistiques ne doivent pas être négligés,” écrivent les chercheurs.

“Il nous a semblé qu’il n’était pas encore pleinement apprécié à quel point les LLM sont impressionnants dans ce que nous appelons la « compétence linguistique formelle »,” nous dit Mahowald. “Ils peuvent produire un langage remarquablement fluide qui permet d’obtenir beaucoup de structures linguistiques vraiment complexes. Ce n’est pas rien!”

En même temps, ils mettent en évidence les limites de la linguistique formelle dans les grands modèles linguistiques. Par exemple, les LLM peuvent obtenir de bonnes performances sur les benchmarks sans apprendre les informations linguistiques pertinentes, telles que la structure hiérarchique et les catégories grammaticales abstraites. En d’autres termes, “les modèles peuvent être « corrects pour la mauvaise raison » et tirer parti de certaines caractéristiques des données d’entrée qui ne sont pas celles testées,” écrivent les chercheurs.

Les grands modèles linguistiques nécessitent également des quantités gigantesques de données pour atteindre des performances quasi humaines. Les chercheurs notent que les étudiants de langues humaines « s’appuient probablement sur des préjugés préexistants afin d’apprendre rapidement à partir de données rares et bruitées – des biais qui manquent aujourd’hui aux modèles SOTA (état de l’art) ». Une direction intéressante de la recherche serait les biais inductifs qui peuvent aider les LLM à apprendre plus rapidement et avec moins de données, et les architectures qui peuvent capturer ces biais.

LLM et compétence linguistique fonctionnelle

La linguistique fonctionnelle consiste à utiliser le langage pour faire des choses dans le monde. Nous utilisons le langage pour envoyer et recevoir des informations sur nos systèmes perceptifs et cognitifs, tels que nos sens et notre mémoire. Ces capacités sont distinctes de la compétence linguistique formelle. Et nous utilisons le langage pour acquérir des compétences sociales et résoudre des problèmes du monde réel. Comme l’écrivent les scientifiques dans leur article, “Un système de langage formel isolément est inutile pour un utilisateur de langage s’il ne peut pas interagir avec le reste de la perception, de la cognition et de l’action.”

Les grands corpus textuels utilisés pour entraîner les LLM contiennent beaucoup d’informations non linguistiques. C’est pourquoi les modèles de langage montrent des performances impressionnantes sur certains benchmarks qui évaluent les capacités de logique et de raisonnement. Fondamentalement, si un scénario est assez courant, le LLM peut réussir. Mais s’ils sont poussés un peu sur des tâches qui nécessitent un raisonnement et une planification minutieuse, les modèles de langage sont alors mis en échec.

Pourquoi est-ce important ? “L’utilisation d’une langue dans la vie réelle est impossible sans compétences cognitives non linguistiques. Comprendre une phrase, raisonner sur ses implications et décider quoi dire—Ces compétences reposent toutes sur des capacités cognitives qui vont bien au-delà de la sémantique lexicale ou de la syntaxe,” avertissent les chercheurs.

L’article aborde quatre domaines clés de la linguistique fonctionnelle, y compris le raisonnement formel, la connaissance du monde, la modélisation de situation et le raisonnement social. Dans tous les cas, les LLM montrent un degré de capacité superficielle qui peut être capturé par l’apprentissage de régularités statistiques. Mais ils n’ont pas les connaissances sous-jacentes qui leur permettraient de fonctionner de manière cohérente.

“Les modèles qui maîtrisent de nombreuses propriétés syntaxiques et distributives du langage humain ne peuvent toujours pas utiliser le langage de manière humaine,” écrivent les chercheurs. “En d’autres termes, leur compétence linguistique fonctionnelle en est encore à un stade infantile.”

“Nous avions le sentiment que certaines personnes prenaient ces succès linguistiques pour établir que les LLM frappaient à la porte de l’intelligence artificielle générale.,” nous dit Mahowald. “En nous appuyant sur les sciences cognitives et les neurosciences cognitives, nous soutenons que la cognition humaine ne se limite pas à un langage fluide.—tout en reconnaissant que la langue courante fait partie du lot.”

“Les personnes qui prêtent attention aux succès de LLM à maîtriser les règles et les modèles linguistiques en concluent que ces modèles apprennent à penser,” nous dit Ivanova. “Les personnes qui prêtent attention aux échecs de LLM dans l’utilisation de la langue les rejettent complètement, ignorant leurs succès dans l’apprentissage des règles et des structures.”

Séparer le langage et la pensée

Les chercheurs soutiennent que les preuves des sciences cognitives et des neurosciences montrent que le langage et la pensée chez les humains sont solidement dissociables.

Par exemple, les personnes qui perdent leurs capacités linguistiques conservent toujours leurs compétences cognitives, telles que jouer aux échecs, composer de la musique et résoudre des problèmes arithmétiques. Et les IRM montrent que le réseau linguistique du cerveau est très actif lorsque les gens écoutent, lisent ou génèrent des phrases, mais pas lorsqu’ils effectuent de l’arithmétique, du raisonnement logique, écrivent des programmes, etc.

“La machinerie dédiée au traitement du langage est distincte de la machinerie responsable de la mémoire, du raisonnement et des compétences sociales,” écrivent les chercheurs.

En conséquence, les auteurs suggèrent que si nous abordons la recherche LLM basée sur la séparation de la linguistique formelle et fonctionnelle, nous pouvons relever certains des défis auxquels ce domaine est confronté aujourd’hui. Ils fournissent plusieurs recommandations pour guider l’avenir de la recherche sur les LLM.

Une solution consiste à introduire la modularité pour séparer le langage de base des compétences cognitives. La modularité peut être obtenue grâce à une architecture qui combine des composants conçus pour différentes fonctions. Il peut également être émergent, où le modèle de transformer sous-jacent est conçu de manière à permettre aux modules individuels et spécialisés de s’auto-développer pendant l’entraînement. “Qu’elle soit intégrée ou induite pour la faire émerger, la modularité peut conduire les modèles à refléter l’organisation fonctionnelle du cerveau humain et, par conséquent, à rendre leur comportement beaucoup plus humain,” écrivent les chercheurs.

Une deuxième solution consiste à aller au-delà de l’entraînement des LLM sur de grands corpus de texte général organisés à partir du Web. Les auteurs proposent de développer des ensembles de données spécialisés pour différentes tâches, en utilisant des architectures modulaires qui reflètent les capacités cognitives des humains et en entraînant les modèles sur diverses fonctions objectives. Une direction prometteuse est l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), la technique utilisée pour entraîner ChatGPT.

Enfin, les auteurs discutent de la nécessité de différents repères qui évaluent les compétences linguistiques formelles et fonctionnelles.

« L’étape 1 consiste à identifier clairement les différentes capacités requises pour l’utilisation de la langue; L’élaboration de métriques sur de tests ciblés pour évaluer ces capacités est l’étape 2; L’amélioration des modèles dans les domaines que les tests identifient comme problématiques est l’étape 3 », a déclaré Ivanova.

Mahowald s’est également dit préoccupé par la diminution de la transparence sur le terrain. Alors que les startups et les grandes technologies se font concurrence pour obtenir une plus grande part du marché des LLM, elles sont de plus en plus réticentes à mettre leurs recherches à la disposition des autres.

« Ce qui m’importe, c’est de comprendre le langage humain et la cognition, et je pense que les LLM sont un outil vraiment excitant pour cela dans la mesure où ils nous permettent d’analyser un système avec des capacités vraiment intéressantes », a-t-il déclaré. « J’espère donc qu’il y a encore une place pour la recherche scientifique utilisant les LLM. S’ils deviennent de plus en plus fermés et privatisés (comme nous le voyons), ce genre d’enquête ouverte pourrait ne pas être possible. Je suis donc enthousiaste et plein d’espoir quant aux efforts open source visant à créer des LLM pour la recherche universitaire. »

Remerciements

Cet article est la traduction française la plus fidèle possible de « To understand language models, we must separate “language” from “thought” » avec l'aimable permission de son auteur Ben Dickson