Comment l’IA générative redéfinit la recherche d’images

Herve Blanc
13 nov. 2023
4 min de lecture

Dernière mise à jour : 16 avr. 2024

En partenariat avec 123RF

Au cours des derniers mois, l’intelligence artificielle générative a suscité beaucoup d’enthousiasme avec sa capacité à créer des textes, des sons et des images uniques. Mais la puissance de l’IA générative ne se limite pas à la création de nouvelles données.

La technologie sous-jacente de l'IA générative, y compris les modèles transformer et modèles de diffusion, peut alimenter de nombreuses autres applications. Parmi celles-ci, il y a la recherche et la découverte d’informations. En particulier, l'IA générative peut révolutionner la recherche d'images et nous permettre de parcourir les informations visuelles d'une manière qui était auparavant impossible.

Voici ce que vous devez savoir sur la façon dont l’IA générative redéfinit l’expérience de recherche d’images.

L’encodage d’images et de textes

La recherche d’images classique s’appuie sur des descriptions textuelles, des balises et d’autres métadonnées qui accompagnent les images. Cela limite vos options de recherche aux informations qui ont été explicitement enregistrées avec les images. Les personnes qui téléchargent des images doivent réfléchir sérieusement au type de requêtes de recherche que les utilisateurs saisiront pour s’assurer que leurs images seront découvertes. Et lors de la recherche d’images, l’utilisateur qui rédige la requête doit essayer d’imaginer le type de description que la personne qui l’a téléversé aurait pu ajouter à la photo.

Cependant, comme le dit l’adage, une image vaut mille mots. Il n’y a pas grand-chose à écrire sur une image, et selon la façon dont vous regardez une photo, vous pouvez la décrire de différentes manières. Parfois, vous vous intéressez aux objets. D’autres fois, vous souhaitez rechercher des images en fonction du style, de l’éclairage, de l’emplacement, etc. Malheureusement, une telle richesse d’informations accompagne rarement les images. Et de nombreuses images sont simplement téléchargées avec peu ou pas d’informations, ce qui rend très difficile leur découverte.

C’est là que la recherche d’images par l’IA entre en jeu. Il existe différentes façons d’effectuer une recherche d’images par IA, et différentes entreprises ont leur propre technologie propriétaire. Cependant, certaines choses sont communes à tous.

Au cœur de la recherche d'images par IA (et de nombreux autres systèmes d'apprentissage profond) se trouvent les encodages. Ces encodages sont des représentations numériques de différents types de données. Par exemple, une image d'une résolution de 512×512 contient environ 260 000 pixels (ou caractéristiques). Un modèle d'encodage tente d'apprendre une représentation de faible dimension de données visuelles en s'entraînant sur des millions d'images. Les encodages d'images peuvent avoir de nombreuses applications utiles, notamment la compression d'images, la génération de nouvelles images ou la comparaison des propriétés visuelles de différentes images.

Le même mécanisme fonctionne pour d'autres modalités telles que le texte. Un modèle d'encodage de texte est une représentation de faible dimension du contenu d'un extrait de texte. Les encodages de texte ont de nombreuses applications, notamment la recherche de similarité et la récupération de contenu pour les grands modèles de langage (LLM).

Encodage d’image & de texte

Comment fonctionne la recherche d’images par l’IA Générative

Mais les choses deviennent encore plus intéressantes lorsque les encodages d'images et de texte sont entraînées ensemble. Les ensembles de données open source comme LAION contiennent des millions d’images et leurs descriptions textuelles correspondantes. Lorsque les encodages de texte et d’image sont entraînées ou affinées conjointement sur ces paires image/légende, elles apprennent des associations entre les informations visuelles et textuelles. C'est l'idée qui sous-tend les techniques d'apprentissage profond telles que la méthode de pré-apprentissage contrastive de langage et image (CLIP).

Les modèles CLIP apprennent les encodages conjoints de texte et d’images (source : OpenAI)

Vous disposez maintenant d’un outil qui peut passer du texte aux encodages visuelles. Lorsque vous fournissez à ce modèle conjoint une description textuelle, il crée l’encodage de texte et l’encodage d’image correspondante. Vous pouvez ensuite comparer l’encodage d’images à celles des images de votre base de données et récupérer celles qui y sont le plus étroitement liées. C’est essentiellement ainsi que fonctionne la recherche d’images par IA.

La beauté de ce mécanisme est que vous serez en mesure de récupérer des images en fonction de la description textuelle et de leurs caractéristiques visuelles, même si cette description n’est pas enregistrée dans leurs métadonnées. Vous pouvez utiliser des termes de recherche enrichis qui n’étaient pas possibles auparavant, tels que « une forêt luxuriante avec de la brume matinale, de grands pins avec une lumière parasite, et des champignons sur un sol recouvert d’herbe ».

Recherche d’images IA avec 123RF

Dans l’exemple ci-dessus, la recherche de l’IA a renvoyé un ensemble d’images dont les caractéristiques visuelles correspondaient à ma requête. Les descriptions textuelles de beaucoup d’entre elles ne contiennent pas les mots-clés de ma requête. Mais leurs encodages sont similaires à l’encodage de ma requête. Sans la recherche d’images par l’IA, il aurait été beaucoup plus difficile, voire impossible, de trouver une image appropriée.

De la découverte à la création

Parfois, l’image que vous recherchez n’existe pas et même la recherche IA ne la trouvera pas pour vous. Dans ce cas, l’IA générative peut vous aider à obtenir les résultats souhaités de l’une des deux manières suivantes.

La première consiste à créer une nouvelle image à partir de zéro en fonction de votre requête. Dans ce cas, un modèle génératif (par exemple, Stable Diffusion ou DALL-E) crée l'encodage de votre requête et l'utilise pour créer l'image pour vous. Les modèles génératifs tirent parti des modèles d'encodage conjoints tels que CLIP et d'autres architectures (telles que les transformers ou les modèles de diffusion) pour transformer les valeurs numériques des encodages en images étonnantes.

DALL-E utilise CLIP et la diffusion pour générer des images à partir de texte (source:OpenAI)

La deuxième approche consiste à prendre une image existante et à utiliser un modèle génératif pour l’éditer à votre guise. Par exemple, dans les images ci-dessous, les champignons sont manquants. Je peux utiliser l’une des images que je trouve appropriée comme point de départ et utiliser un modèle génératif pour y ajouter des champignons.

Images générées par l’IA (source :123RF)

L’IA générative crée un paradigme totalement nouveau qui brouille la frontière entre la découverte et la créativité. Dans une seule interface, vous pouvez passer de la recherche d’images à leur édition ou à la création d’images complètement nouvelles.

Remerciements

Cet article est la traduction française la plus fidèle possible de «How generative AI is redefining image search» avec l'aimable permission de son auteur Ben Dickson