Les comportements émergents des LLMs comme GPT-4 sont-ils un mirage?

Herve Blanc
26 juin 2023
5 min de lecture

Dernière mise à jour : 21 sept. 2023

Cet article fait partie de Démystifier l'IA, une série d’articles qui (tentent de) clarifier le jargon et les mythes entourant l'IA.

Les grands modèles de langage (LLMs) comme ChatGPT et GPT-4 ont captivé l'imagination du monde entier. Ils ont manifesté de nombreux comportements fascinantes, et de nombreux chercheurs pensent que nous avons à peine effleuré la surface.

Mais une nouvelle étude menée par des chercheurs de l'Université de Stanford suggère que certaines de ces capacités pourraient être mal comprises. Ces chercheurs ont étudié les « aptitudes émergentes » que les LLMs acquièrent à mesure qu'ils acquièrent de plus en plus de paramètres, comme mentionnées précédemment. Et leurs résultats montrent que lorsque vous choisissez les bonnes mesures pour évaluer les LLMs, leurs comportements émergentes disparaissent.

Cette étude est importante car elle démystifie certaines des aptitudes magiques et obscures qui ont été attribuées aux LLMs. Cela remet également en question l'idée que l'échelle est le seul moyen de créer de meilleurs modèles linguistiques.

Les comportements émergents des LLMs

Plusieurs études ont examiné les comportements émergents des LLMs. Une étude a défini l'émergence comme des capacités qui ne sont « pas présentes dans les modèles plus petits, mais sont présentes dans les modèles plus grands ». Fondamentalement, cela signifierait qu'un modèle d'apprentissage automatique aurait des performances aléatoires sur une tâche tant que sa taille n’aurait atteint un certain seuil. Après cela, il commencerait à s'améliorer à mesure qu'on augmenterait son nombre de paramètres. Vous pouvez voir les aptitudes émergentes dans le graphique suivant, où la performance du LLM saute soudainement à une certaine échelle.

Les LLMs montreraient des capacités émergentes à grande échelle

Les grands modèles de langage montreraient des capacités émergentes à grande échelle, où les performances sur une tâche restent à des niveaux aléatoires jusqu'à ce que la taille du modèle atteigne un certain seuil. Après cela, les performances sautent et commencent à s'améliorer à mesure que le modèle grandit.

Les chercheurs ont étudié les capacités émergentes dans les LLMs avec plus de 100 milliards de paramètres, tels que LaMDA, GPT-3, Gopher, Chinchilla et PaLM. Les études comprennent des tâches sélectionnées à partir de BIG-Bench, une référence participative qui comprend de nombreux domaines de la linguistique, du raisonnement de bon sens et des mathématiques. Ils ont également utilisé les tests de TruthfulQA, Massive Multi-task Language Understanding (MMLU) et Word in Context (WiC), tous des métriques conçus pour tester les limites des LLMs dans la résolution de tâches de traitement du langage complexes.

Plusieurs raisons rendent les comportements émergents très importantes. Premièrement, ces études indiquaient que la mise à l'échelle des LLMs sans ajouter d'innovation supplémentaire peut continuer à produire des avancées vers des capacités d'IA plus générales. Deuxièmement, ces études suggéraient que nous ne pouvons pas prédire à quoi nous attendre des LLMs à mesure qu'on augmente leur nombre de paramètres. Naturellement, ces résultats intensifieraient encore l'aura mystique autour des grands modèles linguistiques.

Pourquoi l'émergence dans les LLMs pourrait être exagérée

La nouvelle étude de Stanford jette un éclairage différent sur les supposées aptitudes émergentes des LLMs. Selon ses résultats, l'observation de l'émergence est souvent causée par le choix des métriques, et non par l'échelle. Les chercheurs suggèrent que « les revendications existantes de comportements émergents sont des créations dues aux analyses du chercheur, et non pas des changements fondamentaux dans le comportement du modèle sur des tâches spécifiques due à l'échelle ». Les chercheurs trouvent aussi « des preuves solides à l'appui que les capacités émergentes ne peuvent pas être une propriété fondamentale de la mise à l'échelle des modèles d'IA ».

Plus précisément, ils suggèrent que « les aptitudes émergentes semblent n'apparaître qu’avec des échèles non linéaires ou discontinues pour représenter le taux d'erreur par jeton d'un modèle ». Fondamentalement, cela signifie que lors de la mesure de la performance sur une tâche, certaines mesures peuvent montrer une émergence à grande échelle tandis que d'autres montrent une amélioration continue.

Par exemple, certains tests ne mesurent que le nombre de jetons corrects en sorti du LLM. Cela se produit particulièrement dans les tâches liées à la classification et aux mathématiques, où la sortie n'est correcte que si tous les jetons générés sont corrects.

En réalité, les jetons produits par le modèle se rapprochent progressivement des bons. Mais puisque la réponse finale est différente de la vérité terrain, ils sont tous classés comme incorrects jusqu'à ce qu'ils atteignent ce seuil où tous les jetons sont corrects.

Dans leur étude, les chercheurs montrent que s'ils utilisent des métriques alternatives sur les mêmes sorties, les « aptitudes émergentes » n’apparaissent plus de manière abrupte et les performances du modèle s'améliorent petit à petit. Ces métriques mesurent la distance linéaire jusqu'à la vraie réponse au lieu de simplement compter les bonnes réponses.

les performances des LLMs s'améliorent régulièrement lorsqu'elles sont évaluées avec des mesures linéaires

En haut : Lorsqu'ils sont évalués avec des mesures non linéaires, les LLM montrent un comportement émergent

En bas : lorsqu'elles sont évaluées avec des mesures linéaires, les performances s'améliorent régulièrement

Les chercheurs ont également constaté que dans certains cas, l'émergence était due au manque de données de test. En créant un jeu de données de test plus volumineux, les améliorations de performances sont devenues plus continues.

Pour aller plus loin, les chercheurs ont essayé de voir s'ils pouvaient reproduire l'émergence dans d'autres types de réseaux neuronaux profonds. Ils ont effectué des tests sur des tâches de vision et des réseaux de neurones convolutifs (CNN). Leurs résultats montrent que s'ils utilisaient des mesures non linéaires pour évaluer la performance des modèles, ils observeraient le même type d'émergence que celui observé dans les LLMs.

Pourquoi c'est important

Les chercheurs font une observation importante à la fin de l'article: « Le principal point à retenir est que pour une tâche fixe et une famille de modèles fixes, le chercheur peut choisir une métrique pour créer un comportement émergente ou choisir une métrique pour enlever une émergence. Par conséquent, les comportements émergents peuvent être des créations résultant des choix du chercheur, et non une propriété fondamentale de la famille modèle sur la tâche spécifique.

Bien que les chercheurs affirment qu'ils ne prétendent pas que les grands modèles de langage ne peuvent pas afficher des comportements émergents, ils soulignent que les capacités émergentes précédemment revendiquées dans les LLMs « pourraient probablement être un mirage induit par les analyses des chercheurs ».

L'important à retenir est d'avoir une perspective plus critique sur la performance des grands modèles de langage. Compte tenu des résultats étonnants des LLMs, il existe déjà une tendance à les anthropomorphiser ou à les associer à des propriétés qu'ils ne possèdent pas.

Je pense que les résultats de l'article sont importants parce qu'ils aideront à apporter plus de réalité sur le terrain et à mieux comprendre les effets due à l’inflation de paramètres des modèles. Un article récent de Sam Bowman indique que « lorsqu'un laboratoire investit dans l’entraînement d'un nouveau LLM qui fait repousser la frontière de l'échelle, il achète une boîte mystère : Ils sont à juste titre confiants qu'ils obtiendront une variété de nouvelles capacités économiquement précieuses, mais ils peuvent faire peu de prédictions fiables sur ce que seront ces capacités ou sur les préparatifs qu'ils devront faire pour pouvoir les déployer de manière responsable. Avec de meilleures techniques pour mesurer et prédire l'amélioration, les scientifiques seront mieux équipés pour évaluer les avantages et les risques des modèles plus imposants.

Cette approche contribue également à encourager l'exploration d'alternatives à la création de LLM plus grands. Alors que seules les grandes entreprises technologiques peuvent se permettre d’entraîner et de tester de très grands modèles, les petites organisations peuvent faire de la recherche sur des modèles plus petits. Grâce à ces mesures, ils seront en mesure de mieux explorer les capacités de ces modèles plus petits et de trouver de nouvelles orientations de recherche pour les améliorer.

Remerciements

Cet article est la traduction française la plus fidèle possible de «Are the emergent abilities of LLMs like GPT-4 a mirage?» avec l'aimable permission de son auteur Ben Dickson