Modèle multimodal, tout ce qu’il faut savoir

Herve Blanc
25 oct. 2023
8 min de lecture

Dernière mise à jour : 16 avr. 2024

Architecture IA Transformer et bras robotisé

Source Image : 123RF (avec modifications)

Cet article fait partie de Démystifier l'IA, une série d'articles qui (tentent) de lever l'ambiguïté du jargon et des mythes entourant l'IA.

OpenAI vient juste de publier GPT4-V, la dernière édition de son produit phare de grand modèle langage (LLM). Et bien que peu de détails soient disponibles, ce que nous savons, c'est qu'il s'agi d'un modèle « multimodal » (LMM Large Multimodal Model ou MLMM Multimodal Large Language Model), selon un dirigeant de Microsoft qui a pris la parole lors d'un événement de l'entreprise de Mars 2023.

Fondamentalement, les modèles multimodaux ou LMM combinent du texte avec d’autres types d’informations, telles que des images, des vidéos, de l’audio et d’autres types de données sensorielles. La multimodalité peut résoudre certains des problèmes de la génération actuelle de LLMs. Les modèles LLMs multimodaux permettront également de réaliser de nouvelles applications qui étaient juste impossibles avec les modèles textuels.

Nous ne savons pas encore dans quelle mesure les LLM multimodaux nous rapprocheront de l'intelligence artificielle générale (comme certains l'ont suggéré). Mais ce qui semble certain, c'est que les modèles multimodaux sont en train de devenir la prochaine frontière de la concurrence entre les géants de la technologie qui se battent pour dominer le marché de l'IA générative.

Les limites des LLM textuels

Au cœur des LLM tels que ChatGPT et GPT-3 se trouve l'architecture Transformer, un type de réseau neuronal profond particulièrement utile pour le traitement de données séquentielles. Les Transformers sont particulièrement utiles car ils peuvent être entraînés par apprentissage non supervisé sur de très grands ensembles de données textuelles non étiquetés. Ils sont également évolutifs, ce qui signifie que leurs performances s’améliorent à mesure qu’ils grandissent. Ils montrent même des capacités émergentes à très grande échelle, accomplissant des tâches qui n'étaient pas possibles avec des modèles plus petits.

La première génération de LLM était principalement axée sur les données textuelles. Cette orientation a eu de grands avantages pour des applications telles que l'aide à la rédaction d'articles et d'e-mails ou même l'aide à l'écriture de code logiciel. Mais il a également mis en lumière les limites des LLMs textuels.

Bien que le langage soit l’une des caractéristiques importantes de l’intelligence humaine, il n’est que la partie émergée de l’iceberg. Nos capacités cognitives dépendent profondément de la perception et des capacités que nous utilisons le plus souvent inconsciemment, telles que nos expériences passées et notre connaissance du fonctionnement du monde. Avant même d’apprendre à parler, nous apprenons la persistance des objets, la notion de gravité terrestre et nous développons un modèle mental du monde. Nous apprenons à reconnaitre les objets, qu’ils soient animés ou inertes, les agents, les intentions et les objectifs.

Le langage s’appuie sur ces compétences. Il devient un moyen condensé de transmettre des informations et met de côté la plupart de ces attributs que nous partageons tous.

Mais les modèles de langage n’ayant été entraînés que sur du texte, sont rendu incohérents sur les tâches qui nécessitent du bon sens et des connaissances de base du monde réel. L’élargissement du corpus d’entraînement aide parfois, mais laisse toujours des trous qui surgissent de manière inattendue. C’est là que la multimodalité peut aider, dans une certaine mesure.

Qu’est-ce qu’un modèle multimodal ?

Modèle de langage multimodal PaLM-E (source : Google)

Un modèle multimodal est entraîné sur plusieurs types de données. Cela aide le modèle Transformer sous-jacent à trouver et à approximer les relations entre les différentes modalités. La recherche et les expérimentations montrent que les LLM multimodaux peuvent éviter (ou du moins réduire) certains des problèmes rencontrés avec les modèles textuels.

Non seulement les LLM multimodaux améliorent les tâches linguistiques, mais ils peuvent également accomplir de nouvelles tâches, telles que la description d’images et de vidéos ou la génération de commandes pour les robots.

Les modèles de Deep Learning sont généralement conçus de manière à ne recevoir qu'un seul type d'entrée, tel que des images, des données tabulaires ou du texte. Alors, comment pouvez-vous mélanger plusieurs types de données ? Pour comprendre cela, survolons brièvement le mécanisme d'entrée des modèles Transformers.

Les transformateurs prennent des encodages ou « embeddings » en entrée. Les encodages sont des vecteurs qui sont des représentations numériques des données d’entrée. Lorsque vous fournissez à un LLM classique une chaîne de texte, un modèle d’encodage de mots transforme le texte en vecteurs multidimensionnels. Par exemple, les encodages de Davinci, le plus grand modèle GPT-3, ont 12 288 dimensions. Les dimensions du vecteur se rapprochent des différentes caractéristiques sémantiques et grammaticales des jetons (ou mots).

Le modèle Transformer utilise des couches d’attention pour traiter les encodages de mots qu’il reçoit en entrée et déterminer comment ils sont liés les uns aux autres. Il utilise ensuite ces informations pour prédire le jeton suivant dans une séquence. Ce jeton peut ensuite être retraduit dans sa forme originale textuelle.

Les LLM multimodaux utilisent des modules qui encodent non seulement du texte, mais aussi d’autres types de données dans le même espace d’encodage. Cela permet au modèle de calculer toutes sortes de données à l’aide d’un mécanisme unique.

Il existe plusieurs façons de développer des LLM multimodaux. Et il existe plusieurs articles et travaux de recherche qui explorent les LLM multimodaux. Mais deux d’entre eux ont récemment attiré mon attention : Kosmos-1 de Microsoft et PaLM-E de Google. (Il y a aussi Visual ChatGPT, mais j’en parlerai probablement dans un article séparé.) Il est intéressant de noter que Google et Microsoft semblent également être à l’avant-garde de la bataille pour les LLM et l’IA générative.

Kosmos-1

Kosmos-1 a été présenté dans un article intitulé « Le langage n'est pas tout ce dont vous avez besoin : aligner la perception avec les modèles linguistiques ».

Les chercheurs de Microsoft décrivent Kosmos-1 comme « un grand modèle de langage multimodal (MLLM) capable de percevoir des modalités générales, de suivre des instructions (c’est-à-dire un apprentissage zéro coup) et d’apprendre en contexte (c’est-à-dire un apprentissage en quelques coups). L’objectif est d’aligner la perception sur les LLM, afin que les modèles soient capables de voir et de parler.

Kosmos-1 utilise l’architecture Transformer comme interface à usage général pour le traitement de plusieurs types de données séquentielles. Le modèle utilise un seul module d’encodage pour coder le texte et d’autres modalités. Le LLM principal est un décodeur de Transformer standard avec quelques améliorations pour la stabilité de son entraînement et la modélisation à long contexte. Kosmos-1 a une taille de 1,6 milliard de paramètres, beaucoup plus petite que les autres LLM et modèles de raisonnement visuel.

Kosmos-1 par Microsoft

Le chercheur a entrainé le modèle à partir de zéro avec différents types d’exemples, y compris des données monomodales (par exemple, du texte), des données appariées (par exemple, des images et des légendes) et des données multimodales entrelacées (par exemple, des documents texte entrelacés avec des images). Ils ont entraîné le modèle sur la prédiction du jeton suivant comme d’autres LLM. Ils l’ont ensuite réglé avec un ensemble de données spécial qui améliore ses capacités de suivi d’instructions.

Les chercheurs de Microsoft ont testé Kosmos-1 sur plusieurs tâches, notamment la compréhension et la génération de langage standard, les tests de QI non verbaux, le sous-titrage d’images, la réponse visuelle aux questions et la classification d’images. Kosmos-1 a montré une amélioration remarquable par rapport à d’autres modèles de pointe sur plusieurs tâches, notamment le traitement du texte intégré dans les images, la classification des images et la réponse aux questions sur le contenu des pages Web.

L’une des découvertes intéressantes est le raisonnement non verbal avec les tests de QI de Raven, où le LLM prédit le prochain élément d’une séquence d’images. Ce genre de tâches nécessite des capacités d’abstraction et de raisonnement. Le choix aléatoire des réponses permet d’obtenir une précision de 17 %. Kosmos-1 a atteint une précision de 22 à 26 % sans voir vu d’exemples de Raven pendant l’entraînement. Il s’agit d’une amélioration significative, mais encore bien inférieure à la performance humaine moyenne. « KOSMOS-1 démontre le potentiel des MLLM à effectuer un raisonnement non verbal zéro coup en alignant la perception sur les modèles linguistiques », écrivent les chercheurs.

Exemples de tâches par Kosmos-1

Une autre constatation importante est la capacité de transférer les connaissances d’une modalité à l’autre. Il est intéressant de noter que, lorsqu’il est doté d’une entrée multimodale entrelacée, Kosmos-1 utilise des informations intermodales pour améliorer ses réponses.

Dans l’ensemble, Kosmos-1 montre que la multimodalité permet aux LLMs d’accomplir plus avec moins, ce qui permet à des modèles plus petits de résoudre des tâches complexes. À l’avenir, les chercheurs expérimenteront des versions plus grandes de Kosmos-1 et ajouteront d’autres modalités telles que la parole. Ils testeront également Kosmos-1 en tant qu’interface pour d’autres types de tâches, telles que le contrôle de la génération de texte en image.

PaLM-E

PaLM-E, développé par des chercheurs de Google et de l'Université technique de Berlin, est un « modèle de langage multimodal personnifié ». L'article décrit le LLM personnifié comme un modèle qui intègre directement « des entrées continues provenant des modalités de capteur d'un agent du monde réel et permet ainsi au modèle de langage lui-même de faire des inférences plus fondées pour la prise de décision séquentielle dans le monde réel ». Par exemple, le modèle peut intégrer les données des capteurs d'un robot pour répondre à des questions sur le monde réel ou pour exécuter des commandes en langage naturel.

Les entrées du modèle sont des phrases multimodales qui entrelacent du texte, des données visuelles et une estimation d’état. Le modèle peut être des réponses en texte brut à des questions ou une séquence de décisions textuelles traduisibles en commandes à exécuter par un robot. Le modèle a été conçu pour des tâches matérialisées telles que la manipulation d’objets robotiques et la planification de tâches de robots mobiles. Cependant, il est également compétent pour des tâches virtuelles telles que la réponse visuelle aux questions et la génération normale de langage.

Les chercheurs ont utilisé le modèle PaLM pré-entraîné et l'ont combiné avec des modèles entraînés pour encoder des données de différentes modalités dans l'espace d'encodage du LLM principal. Ils ont testé le modèle sur une variété de tâches robotiques, y compris la planification des tâches et des mouvements. PaLM-E a été capable d’accomplir de nouvelles tâches. « PaLM-E peut généraliser l’apprentissage en zéro coup aux tâches impliquant de nouvelles paires d'objets et aux tâches impliquant des objets qui n'étaient pas vus dans l'ensemble de données du robot d'origine ou dans les ensembles de données d'affinage », écrivent les chercheurs.

Le modèle a également montré des résultats prometteurs dans la manipulation mobile, où un robot doit se déplacer dans un environnement et effectuer des tâches telles que ramasser des objets et les transporter vers une destination. Les expériences des chercheurs montrent également que l’entraînement du modèle sur un mélange de tâches et de modes de réalisation améliore les performances sur chaque tâche individuelle.

PaLM-E en action (source : Google)

L’un des avantages importants du PaLM-E est la transférabilité des connaissances. Grâce à ses connaissances représentatives, PaLM-E a été capable de résoudre des tâches robotiques avec très peu d’exemples d’apprentissage. L’efficacité des données est très importante pour la robotique, où les données d’entraînement sont rares et difficiles à collecter.

Quelles sont les limites des LLM multimodaux ?

Chez l’homme, la multimodalité est profondément intégrée dans le corps, les capacités perceptives, les systèmes sensorimoteurs et l’ensemble du système nerveux. Notre cerveau grandit avec le reste de notre corps. Le langage se construit sur un vaste corpus de connaissances que nous acquérons en tant qu’enfants. En revanche, les LLM multimodaux essaient soit d’apprendre le langage et la perception en même temps, soit d’assembler des composants pré-entraînés. Bien que ce type d’architecture et de méthode d’entraînement puisse accélérer le développement du modèle et se prête à la mise à l’échelle, il peut également finir par développer des incompatibilités avec l’intelligence humaine, qui se manifesteront par un comportement bizarre.

Les LLM multimodaux font des progrès sur certains des problèmes importants des modèles de langage actuels et des systèmes d’apprentissage profond. Il reste à voir s’ils résoudront les problèmes plus profonds en comblant le fossé entre l’IA et l’intelligence humaine.

Remerciements

Cet article est la traduction française la plus fidèle possible de «What you need to know about multimodal language models» avec l'aimable permission de son auteur Ben Dickson