Les humains ont une compréhension innée de la façon dont le monde fonctionne. Cette « physique intuitive » est ce que V-JEPA, modèle de META AI, cherche à reproduire. grâce à l'apprentissage auto-supervisé. V-JEPA est entraîné sur de grandes quantités de données vidéo. V-JEPA distingue de manière cohérente et précise les vidéos physiquement plausibles et non plausibles dans tous les ensembles de données servants de références.