Comprendre l’impact des modèles de langage open source (LLMs)

Alors qu’il aurait pu nous sembler que les grandes entreprises technologiques allaient dominer le marché des grands modèles de langage (LLM), une nouvelle vague de LLM open source est venu nous prouver le contraire. La communauté open source a déployé de grands efforts pour créer des modèles capables de répondre à un large éventail de besoins en puissance de calcul, de confidentialité et de données. Ces modèles sont une alternative à ChatGPT et à d’autres LLM qui ne sont accessibles que via des interfaces API.

Dans une récente interview avec TechTalks, Andrew Feldman, PDG de Cerebras Systems, a discuté des implications des modèles fermés et des efforts pour créer des LLM open source. Cerebras crée des processeurs spécialisés pour l’entrainement et l’inférence de réseaux neuronaux. La société a récemment lancé Cerebras-GPT, une famille de LLM ouverts et efficaces pour le calcul. Feldman a partagé l’expérience et les leçons tirées de la création de LLM open source ainsi que les nouvelles applications que ces modèles vont débloquer.

Modèles de langage propriétaires vs open-source

Jusqu’à récemment, il y avait énormément de publications et de partages d’informations au sein de la communauté de l’intelligence artificielle. Avec la pression croissante exercée sur les laboratoires d’IA pour monétiser leur technologie ou trouver des moyens de financer leurs recherches, un segment de la communauté s’est tourné vers moins d’ouverture. Un exemple descriptif est le rapport technique pour GPT-4, le dernier LLM d’OpenAI, qui comprend très peu de détails sur l’architecture du modèle, les données d’entraînement et les coûts.

« Ce que nous avons commencé à voir était en fait un changement fondamental. Au fur et à mesure que ces grandes entreprises dépensaient des dizaines de centaines, voire des milliards de dollars pour former ces modèles, elles sont devenues de moins en moins disposées à partager », a déclaré Feldman.

La course pour dominer le marché de l’IA générative incite les grandes entreprises technologiques et leurs laboratoires associés à garder leurs recherches secrètes pour obtenir un avantage sur leurs concurrents, d’autant plus que l’entrainement et le test de très grands modèles sont très coûteux. Les API et les applications « Boites noires » sont progressivement devenues le modèle de facto pour la publication de nouveaux modèles.

Mais ces derniers mois, nous avons assisté à la sortie d’une vague de modèles open-source qui offrent des alternatives aux produits commerciaux fermés tels que DALL-E 2 et ChatGPT. La communauté LLM a été particulièrement active avec la sortie de modèles tels que Alpaga, Vicuna, Dolly 2, MPT-7B et Cerebras-GPT. Ces modèles permettent aux organisations d’avoir plus d’options à explorer lors du déploiement de LLM dans leurs applications.

« Je ne pense pas que les entreprises, grandes ou petites, souhaitent dépendre d’un ou deux fournisseurs pour leurs modèles linguistiques. Ils veulent contrôler leur propre destin », a déclaré Feldman. « Les modèles linguistiques super grands sont très bons dans beaucoup de domaines.

Mais ce que l’industrie a montré, c’est que des modèles beaucoup plus petits peuvent, dans des tâches spécifiques à un domaine, surpasser ces grands modèles généraux. Et la capacité d’entrainer et d’affiner des modèles dans la catégorie 1-40 milliards de paramètres sur un milliard de jetons est tout à fait à la portée de la plupart des entreprises. Et donc il y a eu une explosion de l’open source en partie en réaction à la fermeture ou à la menace de fermeture du travail d’IA. »

Avoir le contrôle du modèle, de ses données d’apprentissage et de ses applications est l’un des attraits des modèles de langage open source. Et comme les modèles open source sont des ordres de grandeur plus petits que les très grands LLM, ils sont plus faciles à exécuter et à personnaliser.

« Ce que nous avons constaté, c’est que les grandes entreprises veulent entrainer ces modèles sur leurs données propriétaires, et construire des modèles étroitement ciblés et spécifiques à leur domaine, adaptés exactement à ce qu’elles veulent », a déclaré Feldman.

Comment les LLM open source ont connu le succès

Andrew Feldman, CEO de Cerebras

« Pendant longtemps, l’industrie a pensé que plus de paramètres c'était mieux. Et je pense qu’OpenAI a en quelque sorte été le pionnier de cette pensée. Et dans un sens général, c’est vrai », a déclaré Feldman. « Mais dans le sens spécifique, c’est complètement faux. »

En 2022, un article de chercheurs de DeepMind a montré que vous pouviez améliorer les performances d’un modèle de langage en l’entraînant sur plus de données au lieu de le rendre plus grand. Chinchilla, le modèle présenté dans le document, variait de 16 à 70 milliards de paramètres. Chinchilla a été formé sur 1,4 billion de jetons, environ 20 jetons par paramètre. En comparaison, avec 175 paramètres, GPT-3 a été entraîné sur 300 milliards de jetons, soit environ deux jetons par paramètre. En conséquence, Chinchilla a surpassé les modèles plus grands tels que GPT-3 sur de nombreuses tâches. Dans le même temps, l’exécuter et le spécialiser pour des tâches spécifiques était beaucoup moins coûteux.

« [Chinchilla] a conduit à la capacité de former des modèles plus petits sur plus de données pour obtenir des résultats vraiment impressionnants et la création et l’open source de grands ensembles de données », a déclaré Feldman. « L’idée que les données sont probablement plus puissantes que le nombre de paramètres, lorsqu’on se donne un budget fixe, a conduit à une énorme quantité de travail dans la communauté open source pour la catégorie 1-40 milliards de paramètres et beaucoup moins de travail dans la catégorie 100-500 milliards de paramètres. »

Le succès de LLaMA, une famille de modèles publiée par Meta, est un autre exemple de la puissance des données d’apprentissage sur la taille du modèle. S’appuyant sur les leçons tirées de Chinchilla, Meta a continué d’augmenter le nombre de jetons d’entrainement par paramètre de modèle.

« Dans l’article de LLaMA, ils ont montré que vous pouviez continuer à gagner en avantage en utilisant plus de données - 50 ou 100 jetons par paramètre », a déclaré Feldman. « Vous avez moins de gains après environ 20 ou 30 jetons par paramètre. Mais si vous êtes prêt à attendre les cycles de calculs, à dépenser de l’argent pour l’entrainement, votre modèle continue de gagner en précision. »

Cela donne aux développeurs plus de flexibilité sur le type de modèles et de régimes d’entrainement qu’ils peuvent utiliser en fonction de leur budget, de leur application, de leurs données et de leur fréquence d’utilisation. Par exemple, si vous voulez une inférence rapide et fréquente, vous voudrez peut-être dépenser votre budget pour former un modèle plus petit sur plus de données. Cela augmente les coûts d’entrainement, mais réduit les coûts d’inférence. Sinon, si vous êtes moins préoccupé par les coûts d’inférence, vous pouvez réduire les coûts d’entrainement en créant un modèle plus grand sur moins de jetons. Vous paierez donc plus au moment de l’inférence.

« Vous avez cet ensemble de compromis vraiment intéressants pour ceux qui font du travail de mise en production », a déclaré Feldman.

Affinage des LLM open-source

Contrairement à la recherche scientifique, qui évalue souvent les modèles sur des repères très généraux, la spécialisation est très importante pour les applications du monde réel.

« Pour la plupart, dans les applications en production, la généralité n’est utile à personne.

Les entreprises veulent que quelque chose de très spécifique soit résolu, comme un ensemble de questions financières, fiscales, juridiques ou biomédicales », a déclaré Feldman. « Ce sont des tâches très spécifiques et donc la capacité du modèle à être général est beaucoup moins importante. »

Dans le même temps, de nombreuses entreprises disposent de données propriétaires sur lesquelles elles souhaitent former leur modèle. L’une des opportunités très intéressantes des modèles open source est l’efficacité du réglage fin. Une fois que vous avez entrainé un « modèle de fondation » sur un très grand ensemble de données, il sera très rentable de l’affiner plus tard pour des tâches spécifiques. Alors que les LLM très volumineux nécessitent des infrastructures de calcul coûteuses pour être affinées, de nombreux LLMs open source peuvent être affinés à très faible coût et même sur des GPUs grand public.

Les chercheurs ont mis au point des techniques efficaces en matière de paramètres, telles que l’adaptation de bas rang (LoRA), qui permet d’effectuer des ajustements précis pour une fraction de leurs coûts normaux.

« Pour pas beaucoup d’argent, vous êtes en mesure de construire sur ces modèles de base open source en vous entraînant avec des données très spécifiques et très propres qui sont appropriées à un domaine très spécifique », a déclaré Feldman. « Et sans surprise, le modèle est très précis dans ce domaine particulier. C’est un élément puissant, et nous verrons de plus en plus de travaux spécifiques à un domaine. Je pense que c’est vraiment l’une des directions de l’avenir. »

Cerebras-GPT

Cerebras a publié Cerebras-GPT, une famille de sept modèles de langage open source allant de 111 millions à 13 milliards de paramètres. Les modèles ont été pré-entraînés sur l’ensemble de données open source Pile. L’équipe de Cerebras a utilisé les directives de l’article de Chinchilla et les techniques pour mettre les modèles à l’échelle efficacement. L’équipe a publié les modèles, les poids, le code et la recette d’entraînement.

Les modèles ont déjà été téléchargés plus de 400 000 fois et sont devenus très populaires.

Certaines choses rendent Cerebras-GPT particulièrement intéressant. Tout d’abord, Cerebras a publié les modèles sous la licence Apache 2.0, ce qui signifie qu’il n’y a aucune limite à leur utilisation à des fins de recherche ou commerciales. Cela contraste avec certains des autres modèles open source, tels que LLaMA, qui ont des licences plus restrictives.

De plus, Cerebras-GPT fournit des détails très intéressants sur les lois de mise à l’échelle des LLM et les calculs qui vous permettent d’évaluer les compromis entre les coûts d’entrainement et d’inférence. Ils ont créé une formule d’entrainement et de mise à l’échelle qui vous permet de prédire avec précision les performances des modèles sans gaspiller de ressources coûteuses pour les entrainer.

Lois de mise à l’échelle Cerebras-GPT

Enfin, Cerebras a utilisé son matériel d’IA pour entrainer les modèles. L’infrastructure de calcul Cerebras utilise le processeur CS-2 très efficace, qui a été spécialement conçu pour résoudre certains des plus grands défis de la configuration de la pile de calcul pour entrainer et exécuter des LLM.

« Une GPU est une machine relativement petite, et vous voulez en utiliser 400, 600 ou 1 000, vous devez consacrer beaucoup de temps et d’efforts à répartir le travail entre elles », a déclaré Feldman. « Nous pensons que c’est une mauvaise idée dès le début. Ce que vous devez faire, c’est construire du matériel qui n’en a pas besoin. »

C’est ce que fait la pile matérielle et logicielle Cerebras. Vous pouvez facilement mettre à l’échelle votre modèle et vos nœuds de calcul sans vous soucier de distribuer les calculs et ce avec une seule commande. Dans de nombreux cas, la configuration de la pile de calcul ne nécessite qu’une seule modification d’un fichier de configuration.

« C’est grâce à cela que nous avons pu mettre sept modèles dans la communauté avec seulement quelques semaines de travail », a déclaré Feldman. « Lorsque vous construisez une infrastructure et que vous la mettez dans la communauté open source, ce que vous voulez, c’est que les gens fassent des choses sympa avec vos inventions. Et puis vous pouvez l’utiliser pour résoudre des problèmes intéressants et nous sommes très fiers de ce qui a été fait. »

Remerciements

Cet article est la traduction française la plus fidèle possible de «Understanding the impact of open-source language models» avec l'aimable permission de son auteur Ben Dickson