top of page
Rechercher

Compréhension des principes de physique de JEPA

  • Photo du rédacteur: Herve Blanc
    Herve Blanc
  • il y a 6 jours
  • 7 min de lecture

Apprendre les principes de la physique grâce à l'apprentissage auto-supervisé et V-JEPA

Des recherches récentes menées par Meta montrent que les modèles de ML peuvent comprendre la physique de manière intuitive en regardant des vidéos.


Un robot regardant des vidéos sur un grand écran
Un robot regardant des vidéos sur un grand écran

Les humains ont une compréhension innée de la façon dont le monde fonctionne. Nous nous attendons à ce qu'une balle lachée tombe, à ce que les objets persistent même lorsqu'ils sont cachés et à ce que les choses solides ne passent pas les unes à travers les autres. Cette « physique intuitive » est fondamentale pour notre cognition.


Pourtant, reproduire ce bon sens dans l'intelligence artificielle reste un défi de taille. Aujourd'hui, une étude récente menée par des chercheurs de Meta AI démontre comment un type spécifique de modèle d'apprentissage profond peut développer une compréhension de la physique intuitive simplement en regardant de grandes quantités de données vidéo non labelisées.


Ce travail offre des informations précieuses sur la construction de meilleurs modèles de monde réel, une étape cruciale vers une IA plus performante et polyvalente.


La physique intuitive et le défi de l'IA


La physique intuitive est notre compréhension de base du fonctionnement du monde physique. Nous nous attendons à ce que les objets se comportent de manière prévisible : ils n'apparaissent pas ou ne disparaissent pas soudainement, ne se déplacent pas à travers des barrières solides ou ne changent pas arbitrairement de forme ou de couleur. Cette compréhension se développe tôt chez l'homme et existe même chez de nombreuses espèces animales.


Malgré les progrès rapides réalisés dans la résolution de tâches complexes telles que le codage, les mathématiques et la génération de texte, les systèmes d'IA actuels ont du mal à raisonner physiquement. Cela illustre un fossé persistant souvent appelé « le paradoxe de Moravec » : des tâches triviales pour les organismes biologiques peuvent être remarquablement difficiles pour l'IA.


Il existe deux approches principales pour apprendre à l'IA la compréhension de la physique. Les modèles structurés utilisent souvent des représentations codées à la main d'objets, de leurs propriétés et de leurs relations dans un espace 3D, construisant essentiellement un « moteur de jeu » dans l'esprit de l'IA pour simuler la physique. Cela est en quelque sort aligné avec les théories suggérant que les humains ont des systèmes innés de « connaissances de base ». À l'opposé, on trouve des modèles génératifs qui sont basés sur le traitement des pixels. Ces systèmes adoptent une approche plus générale, apprenant en essayant de prédire les futures images vidéo directement au niveau du pixel sur la base des images passées, sans aucune structure prédéfinie sur les objets ou la physique.


V-JEPA: Une solution intermédiaire pour l'apprentissage de la physique


L'article de Meta AI explore une troisième approche entre les 2 solution évoquées : les architectures prédictives d'intégration conjointe (JEPA). JEPA a été introduit pour la première fois en 2022 par Yann LeCun, chef scientifique de l'IA chez Meta (également co-auteur du nouvel article). L'idée centrale derrière JEPA est que la prédiction des états futurs du monde réel devrait se faire dans une représentation abstraite et interne apprise par le modèle lui-même, plutôt que de prédire directement des caractéristiques de bas niveau ou de s'appuyer sur des structures codées à la main. Contrairement aux modèles structurés, les JEPA apprennent leurs propres représentations à partir des données.


L'étude se concentre sur une version vidéo de cette architecture, appelée V-JEPA. Ce modèle apprend à connaître le monde en regardant des vidéos et en prédisant les pièces manquantes. Au lieu de prédire des scènes au niveau du pixel, V-JEPA travaille dans son espace de représentation abstraite appris, comme la façon dont un objet doit interagir avec son environnement et d'autres objets.


    V-JEPA : la prédiction des états futurs du monde réel se fait dans une représentation abstraite et interne apprise par le modèle lui-même
V-JEPA : la prédiction des états futurs du monde réel se fait dans une représentation abstraite et interne apprise par le modèle lui-même

V-JEPA et construite à partir de deux composants principaux : un encodeur et un prédicteur. L'encodeur analyse une vidéo et en extrait des représentations abstraites du contenu. Pendant l'apprentissage, des parties de la vidéo d'entrée sont masquées artificiellement (par exemple, des blocs aléatoires dans l'espace et le temps, ou des trames futures). Le travail du prédicteur consiste alors à estimer la représentation de ces parties manquantes, sur la base des parties visibles fournies par l'encodeur.


Grâce à ce processus, l'encodeur apprend à capturer les informations essentielles et prévisibles sur le contenu et la dynamique de la vidéo, tout en éliminant les détails non pertinents de bas niveau.


Le principal avantage de cette méthode d'entraînement est qu'elle est auto-supervisée, ce qui signifie qu'elle ne nécessite pas d'humains pour labeliser les images vidéo.


Tester la compréhension du monde de V-JEPA


Une fois que V-JEPA est entraîné sur de grandes quantités de données vidéo, son encodeur et son prédicteur formés, ils peuvent aussi être utilisés pour expérimenter sa compréhension de la physique sans aucun entrainement supplémentaire ni mise au point.


Les chercheurs ont utilisé une méthode inspirée de la psychologie du développement appelée le paradigme de la « violation des attentes ». Dans des études sur des nourrissons humains, les chercheurs montrent aux bébés deux scénarios : l'un physiquement plausible et l'autre impossible (par exemple, un objet semblant passer à travers un mur solide). L'augmentation du temps de regard sur l'événement impossible est interprétée comme une « surprise », indiquant que le nourrisson comprend le principe physique violé.


la mesure quantitative de la surprise peut être utilisée pour détecter les violations des concepts de la physique intuitive
la mesure quantitative de la surprise peut être utilisée pour détecter les violations des concepts de la physique intuitive

De même, on peut montrer au modèle d'IA des paires de vidéos – l'une physiquement possible, l'autre impossible. Comme l'indique l'article : « En incitant le modèle à imaginer la représentation du futur d'une vidéo et en comparant ses prédictions avec le futur réel observé de la vidéo, nous obtenons une mesure quantitative de la surprise qui peut être utilisée pour détecter les violations des concepts de la physique intuitive. »


Un score de surprise plus élevé pour la vidéo impossible indique que le modèle a appris le principe physique pertinent.


Performances de V-JEPA par rapport à d'autres modèles


Les chercheurs ont testé la compréhension intuitive de la physique de V-JEPA à l'aide de trois ensembles de données de référence qui comprennent des vidéos conçues pour tester des concepts spécifiques tels que la permanence des objets (les objets continuent d'exister lorsqu'ils sont cachés), la continuité (les objets se déplacent le long de chemins connectés), la constance des formes et des couleurs, la solidité (les objets ne passent pas les uns à travers les autres), la gravité, le support et l'inertie.

Ils ont comparé V-JEPA à d'autres classes de modèles : un modèle représentatif de prédiction de pixels (VideoMAEv2) et des modèles multimodaux de langage large (MLLM comme Qwen2-VL et Gemini 1.5 pro) qui raisonnent sur les vidéos en utilisant le texte.


V-JEPA a distingué de manière cohérente et précise les vidéos physiquement plausibles et non plausibles dans tous les ensembles de données
V-JEPA a distingué de manière cohérente et précise les vidéos physiquement plausibles et non plausibles dans tous les ensembles de données

Les résultats ont été frappants. V-JEPA a distingué de manière cohérente et précise les vidéos physiquement plausibles et non plausibles dans tous les ensembles de données, atteignant une grande précision (par exemple, 98 % sur IntPhys). En revanche, le modèle de prédiction de pixels et les MLLM ont tous deux des fonctionnement beaucoup plus proche d’un tirage aléatoire.


« Ces résultats montrent que la prédiction dans un espace de représentation apprise est suffisante pour développer une compréhension de la physique intuitive », concluent les auteurs. « Cela se fait sans aucune abstraction prédéfinie, et sans connaissance des tests de référence lors du pré entrainement ou du développement de la méthode. »


Les chercheurs soulignent que ces résultats « ne signifient pas que les LLM ou les modèles de prédiction de pixels ne peuvent pas atteindre une compréhension intuitive de la physique, mais simplement que cette tâche apparemment simple reste difficile même pour les modèles de pointe ».


Pourquoi V-JEPA réussit


L'étude explore aussi comment différents choix de conception affectent la compréhension des principes de physique de JEPA.


Les chercheurs ont constaté que la stratégie de masquage spécifique pendant l'entraînement n'était pas le facteur le plus critique. Même le simple masquage aléatoire a fonctionné raisonnablement bien. L'élément clé semble être d'effectuer la tâche de prédiction dans un espace de représentation abstrait, plutôt que de prédire des pixels bruts.


En termes de données, le type de données vidéo utilisées pour l’entrainement est important. Les modèles entraînés sur des ensembles de données axés principalement sur le mouvement ont donné de mauvais résultats. L'entraînement sur des ensembles de données centrés sur l'action a donné des résultats supérieurs à l’aléatoire. Les meilleures performances ont été obtenues lors de l'entraînement sur des vidéos de tutoriels, même en n'utilisant qu'une petite fraction de l'ensemble complet des données (par exemple, 128 heures de vidéo uniquement, soit environ une semaine).


La taille du modèle était également importante et, comme c'est souvent le cas dans l’apprentissage profond, les modèles plus grands ont généralement obtenu de meilleurs résultats. Cependant, la capacité d'apprendre la physique intuitive n'était pas exclusive aux modèles massifs. Un modèle V-JEPA relativement petit (115 millions de paramètres) a tout de même atteint une précision impressionnante (plus de 85 %), démontrant la robustesse de l'approche.


Compréhension des principes de physique de JEPA : Limites et voies à suivre


Malgré son succès, V-JEPA n'est pas parfait. Il a du mal avec les concepts de physique qui nécessitent de comprendre un événement de context spécifique montré précédemment (comme savoir si un conteneur a un faux fond avant de voir un objet y tomber) ou de modéliser des interactions précises comme les collisions. Les modèles actuels n'ont pas non plus la capacité de conditionner leurs prédictions à des facteurs externes, comme une action en cours. Ils prédisent l'avenir en tant qu'observateurs passifs.


Des recherches futures pourraient explorer l'entraînement de ces modèles sur des données vidéo spécifiquement organisées pour imiter ce que voient les nourrissons humains, ce qui pourrait mettre en lumière la façon dont les expériences visuelles précoces façonnent la compréhension du monde physique.


Les chercheurs sont optimistes quant à l'approche et écrivent : « Nous pensons que la méthode de prédiction latente est une voie à suivre vers la construction de réseaux neuronaux qui comprennent le monde physique. »


Remerciements

Cet article est la traduction française la plus fidèle possible de «Learning commonsense physics through self-supervised learning» avec l'aimable permission de son auteur Ben Dickson 

bottom of page