Dialogues avec les IA : Où Atterrissent Vos Confidences ?

Découvrez comment l'IA générative transforme la gestion des données en entreprise, entre opportunités d'automatisation et enjeux de confidentialité.

ChatGPT est maintenant entré dans les usages de la majorité des personnes travaillant sur un ordinateur, c’est un fait.

Les offres (accessibles gratuitement) se multiplient pour le grand public et pour les entreprises, avec notamment :

  • ChatGPT en version gratuite limitée à GPT 3.5, en version Plus ou Team avec accès à GPT 4 et Dall-E
  • Claude de Anthropic, le service est en bêta et n’est toujours pas accessible en France (il faut fournir un numéro de téléphone avant de commencer à l’utiliser. Il semblerait que Anthropic ne soit pas prêt à passer la barrière du RGPD…)
  • Gemini en version gratuite accessible avec son compte Gmail
  • Le Chat par Mistral AI qui est (comme Claude) en Bêta pour l’instant mais accessible gratuitement une fois enregistré.
  • Copilot par Microsoft qui se base sur les modèles de langage fournis par OpenAI. Une version gratuite en ligne est disponible et la version payante permet de débloquer l’utilisation de Copilot directement dans la suite Office

Et une chose est commune pour la grande majorité de ces services par défaut … roulement de tambour … l’utilisation de vos conversations pour améliorer leurs services (dans le meilleur des cas vous pouvez accéder à un paramétrage pour le désactiver). Ce qui signifie que toute information inclue dans un prompt peut être utilisée pour entrainer un modèle ou être stockée dans des datasets de test qui seront recopiés sur les ordinateurs des développeurs (moui les dévs sont toujours très consciencieux quand il s’agit des données client). Et les données d’entrainement on a vu que dès fois, et bien… elles ressortent sans le vouloir (par exemple en faisant répéter à l’infini le mot poème).

Après le ShadowIT et les risques liés on a donc maintenant une joli nouveau buzzword tout beau tout chaud : le ShadowIA !!

Et à ce jeu là c’est Microsoft qui marque le plus de point avec ses offres pour les professionnels. Non seulement en proposant l’intégration de l’IA dans ses outils de bureautique et de travail collaboratif mais surtout en mettant les outils d’IA au même niveau, en terme de gestion des données clients, que ces applications : les données sont stockées et traitées en Europe sauf accord explicite et les données ne sont pas utilisées pour entrainer améliorer les modèles de langage.

L’alternative à Microsoft Copilot, pour une entreprise soucieuse de la gestion de ses données et qui désire réduire au maximum le phénomène de ShadowIA (ou pour une entreprise éditrice de logiciel par exemple), réside dans l’utilisation de l’IA as a Service. Effectivement Azure, AWS, GCP, Watson (OVH aussi) proposent des services/API pour exploiter les possibilités des différents LLMs :

  • Azure avec le OpenAi Services met à disposition sous forme d’API les modèles de OpenAI tout en garantissant la non utilisation des données pour l’entrainement amélioration des modèles
  • AWS avec Amazon Bedrock qui met à disposition les modèles Claude de Anthropic mais aussi les modèles Llama de Meta et Titan de Amazon en mettant en place les mêmes garanties
  • Sur GCP attention il est possible d’utiliser Gemini a travers plusieurs API qui ne sont pas soumises au même condition d’utilisation, sur l’API Gemini les données pourront être utilisées pour entrainement des modèles, pour profiter d’un service entreprise prenant en compte la protection des données des utilisateurs il faut privilégier l’utilisation au travers de Vertex AI mais même là il semble qu’il y ait plutôt des options de configuration à mettre en place et qu’il faille donc être vigilant, voici ce que disent les conditions de service : 17. Training Restriction. Google will not use Customer Data to train or fine-tune any AI/ML models without Customer’s prior permission or instruction.

L’avantage de cette approche est d’avoir a disposition l’état de l’art en terme de performance tout en reprenant la main sur la sécurité et la gestion de ses données.

Cette approche demande ensuite de réfléchir aux cas d’usages à mettre en place (le helpdesk est un exemple souvent rapide à réaliser et sur lequel le gain de productivité est très vite constaté) et de les implémenter. Pour l’implémentation je conseil d’éviter les SDK et d’utiliser une librairie permettant de découpler votre application du fournisseur. Je parle du cas d’implémentation en Java d’une appli utilisant l’IA ici.

Pour les personnes/organisations pour lesquels les LLMs disponibles par ces services n’offrent pas les bonnes capacités et/ou qui désirent aller plus loin dans la sécurisation de leurs données il est aussi possible de déployer et maintenir un modèle OpenSource par exemple chez OVH et ainsi de garantir que vous gardez complètement la main sur les données et leur stockage (par contre le cout n’est pas le même pour obtenir un système performant).

Image de Sylvestre Pinget

Sylvestre Pinget

Développeur depuis 15 ans, GenAI enthousiaste, contributeur sur langchain4j.dev

Sur le même sujet