Les CGUs des produits IA

Herve Blanc
11 août 2023
3 min de lecture

Dernière mise à jour : 20 sept. 2023

Ne prenons pas à la légère les conditions d’utilisation (CGUs) de nos produit d'IA, (peu) de gens les lisent...

Et pourtant, c'est suffisant pour déclencher une « tornade » de commentaires sur Internet qui s’enrage contre votre entreprise.

Nous avons vu ce genre de cauchemar de communication encore et encore et plus récemment avec Zoom, Adobe, Midjourney, OpenAI ... Ces événements mettent en évidence l'attention croissante du publique vis-à-vis de l'IA, en particulier les préoccupations concernant la façon dont les données et le contenu des données personnelles pourraient être utilisés pour entrainer de grands modèles de langage d'IA, sans leur consentement ou sans qu'ils reçoivent une compensation. Une fois que le bouche à oreille s’est emballé, les entreprises se retrouvent dans un rattrapage de communication (par exemple, https://blog.zoom.us/zooms-term-service-ai/) mais la confiance est altérée à jamais, une aubaine pour les concurrents.

En tant que tel, nous ne devrions pas être naïfs, ces concurrents ne sont probablement pas franchement mieux. L'IA apprend des données. Pour que les fournisseurs de services puissent vous apporter des services intelligents, ils doivent utiliser certaines données pour entrainer leurs modèles. D’ailleurs toute bonne stratégie de produit d'IA qui soit, comprend une bonne stratégie de collecte de données. Il faut sans cesse enrichir les données de l'entreprise au fil du temps, en veillant à ce que les modèles soient mis à jour fréquemment, idéalement avec des données réelles utilisées par les services. C'est ainsi que la modèles d’IA peuvent donner les meilleures performances d'inférence, car les données sont alors assez ressemblantes de celles qui ont servie à l’apprentissage. Sinon, les performances du modèle peuvent se dégrader, un phénomène le plus souvent appelé « dérive des données ».

Pourquoi devrions-nous nous inquiéter de l'utilisation de nos données à des fins d’entrainement ? Les entreprises ont des secrets commerciaux, et elles ne veulent pas que leurs concurrents puissent utiliser un grand modèle pour « raisonner » avec leurs données.

Même dans votre sphère privée, une fois qu'un modèle a appris des informations sur vous, extraites de tel ou tel site Internet, cela pourrait être un cauchemar pour d'obtenir un « désapprentissage » de vos données. Les coûts d’entrainement des grands modèles dépassent les millions de dollars, donc les phase d’apprentissage des modèles ne sont pas des tâches quotidiennes. De plus, les hallucinations des modèles pourraient ne pas être à votre avantage (exemple https://www.zdnet.com/article/chatgpts-hallucination-just-got-openai-sued-heres-what-happened/). Mais les choses changent rapidement, OpenAI vient juste d’annoncé que vous pouvez bloquer leur crawler https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai )

Des entreprises comme Zama pourraient atténuer les problèmes de confidentialité avec leur technologie FHE (Fully Homomorphic Encryption). Ils apportent la confidentialité avec ce qu'ils appellent le « encryption à l'utilisation » (‘encryption au repos et l’encryption en transit sont des mécanismes que la RGPD exige pour sécuriser les données par conception). Fondamentalement, FHE permet de traiter des données sans avoir à les décrypter (plus d'informations sur le sujet à https://www.techradar.com/features/this-company-believes-to-have-the-solution-to-chatgpt-privacy-problems).

Rémunérer les propriétaires de données (auteurs) reste quelque chose qui est plutôt flou. Adobe s'est engagé à récompenser les artistes. Nous avons entendu certains dire que la Blockchain pourrait aider. Mais la réalité est qu'il n'y a rien qui relie, disons une image, utilisée lors de la phase d'apprentissage, avec l’inférence du modèle.

Et puis, le modèle commercial freemium vs premium est-il la solution à ce problème de confidentialité ? « Quand quelque chose est gratuit, l'utilisateur est le produit. » Il semble que nous ayons déjà très largement accepté ce modèle, et les plateformes GAFAM l'utilisent depuis longtemps. La bourde de Zoom montre que plus d’attention est requise sur ce sujet avant de publier de nouvelles conditions. Leurs utilisateurs gratuits sont probablement plus ouverts à voir leurs données utilisées pour la formation de l'IA tout en bénéficiant d'un nouveau service (facultatif).

Soyons donc prêts à gérer les conditions d’utilisation des produits d'IA avec un soin extrême. C'est sûr que nous verrons plus de problèmes de ce genre dans la presse.