La CNIL a élaboré un programme d’action pour l’intelligence artificielle qui donne une idée de ses priorités, notamment concernant les technologies d’IA génératives comme le ChatGPT d’OpenAI, pour les mois à venir et au-delà.
Un service dédié à l'Intelligence Artificielle
Un Service dédié à l’Intelligence Artificielle a été instauré au sein de la CNIL pour examiner la technologie et formuler des recommandations pour des systèmes d’IA respectueux de la vie privée.
Un objectif déclaré pour le régulateur est de diriger le développement de l’IA « qui respecte les données personnelles », par exemple en élaborant les moyens d’auditer et de contrôler les systèmes d’IA pour « protéger les individus ».
Comprendre comment les systèmes d’IA affectent les personnes est un autre axe majeur, ainsi que le soutien aux acteurs innovants de l’écosystème d’IA local qui appliquent les meilleures pratiques de la CNIL.
« La CNIL souhaite établir des règles claires pour protéger les données personnelles des citoyens européens afin de contribuer au développement de systèmes d’IA respectueux de la vie privée », écrit-elle.
Il ne se passe guère une semaine sans qu’un groupe de technologues de haut niveau appelle les régulateurs à se saisir de l’IA. Et hier seulement, lors de son témoignage devant le Sénat américain, le PDG d’OpenAI, Sam Altman, a demandé aux législateurs de réglementer la technologie, suggérant un régime de licences et de tests.
Cependant, les régulateurs de la protection des données en Europe sont déjà en action, avec des sanctions infligées à des entreprises comme Clearview AI pour l’utilisation abusive des données des personnes, par exemple.
Le ChatGPT d’OpenAI a également fait l’objet d’une intervention très publique de l’Autorité italienne de protection des données fin mars, ce qui a poussé l’entreprise à publier en urgence des options de contrôle pour les utilisateurs, leur permettant d’imposer certaines limites à l’utilisation de leurs informations.
Parallèlement, les législateurs de l’UE sont en train de définir un accord afin de réguler les applications de l’IA, que le bloc a proposé en avril 2021.
Ce cadre légal pourrait être adopté d’ici la fin de l’année, et cette future régulation est une autre raison pour laquelle la CNIL met en avant la préparation de son plan d’action sur l’IA, affirmant que ce travail « permettra également de se préparer à l’entrée en application du projet de réglementation européenne sur l’IA, qui est actuellement en discussion ».
Il est probable que les autorités de protection des données existantes joueront un rôle dans l’application de ces règles, et la compréhension et l’expertise en matière d’IA par les régulateurs sera cruciale pour le fonctionnement efficace de ces règles. Les sujets et détails sur lesquels les régulateurs de l’UE choisissent de concentrer leur attention sont appelés à peser sur les paramètres opérationnels de l’IA dans le futur – certainement en Europe et, potentiellement, plus loin compte tenu de l’avance du bloc en matière de réglementation numérique.
L'IA générative sous la loupe des autorités
En ce qui concerne l’IA générative, le régulateur français de la vie privée accorde une attention particulière à la pratique de certains fabricants de modèles d’IA qui récupèrent des données sur Internet pour construire des ensembles de données destinés à former des systèmes d’IA comme les grands modèles de langage qui peuvent, par exemple, analyser le langage naturel et répondre de manière humaine aux communications.
Il indique qu’un domaine prioritaire pour son service d’IA sera « la protection des données publiques disponibles sur le web contre l’utilisation du scrapping, ou la récupération, des données pour la conception d’outils ».
C’est un sujet sensible pour les fabricants comme ChatGPT qui ont tablé sur la récupération discrète de vastes quantités de données web pour les réutiliser comme base de données pour leur IA. Ceux qui ont aspiré des informations web contenant des données personnelles font face à un défi juridique spécifique en Europe – où le Règlement général sur la protection des données (RGPD), en vigueur depuis mai 2018, exige qu’ils aient une base légale pour un tel traitement.
Il existe un certain nombre de bases légales énoncées dans le RGPD, cependant les options possibles pour une technologie comme ChatGPT sont limitées.
Selon l’Autorité italienne de protection des données, il n’y a que deux possibilités : le consentement ou les intérêts légitimes. Et comme OpenAI n’a pas demandé l’autorisation individuelle des utilisateurs du web avant d’ingérer leurs données, l’entreprise s’appuie désormais sur une revendication d’intérêts légitimes en Italie pour le traitement ; une revendication qui reste sous enquête par le régulateur local, le Garante. (Rappel : les sanctions du RGPD peuvent aller jusqu’à 4% du chiffre d’affaires annuel mondial en plus de toute ordonnance corrective.)
La réglementation pan-européenne impose d’autres exigences aux entités qui traitent des données personnelles – comme le fait que le traitement doit être équitable et transparent. Il y a donc des défis juridiques supplémentaires pour des outils comme ChatGPT pour éviter de tomber sous le coup de la loi.
Et – notablement – dans son plan d’action, la CNIL française met en avant « l’équité et la transparence du traitement des données sous-jacent à l’opération des [outils d’IA] » comme une question particulière d’intérêt qu’elle dit que son Service d’Intelligence Artificielle et une autre unité interne, le Laboratoire d’Innovation Numérique de la CNIL, prioriseront pour l’examen dans les mois à venir.
D’autres domaines prioritaires que la CNIL signale pour son étude sur l’IA sont :
- la protection des données transmises par les utilisateurs lorsqu’ils utilisent ces outils, allant de leur collecte (via une interface) à leur possible réutilisation et traitement par des algorithmes d’apprentissage automatique
- les conséquences pour les droits des individus sur leurs données, tant en ce qui concerne celles collectées pour l’apprentissage des modèles que celles qui peuvent être fournies par ces systèmes, comme le contenu créé dans le cas de l’IA générative.
- la protection contre les biais et les discriminations qui peuvent survenir
- les défis de sécurité sans précédent de ces outils.
Les explications vagues du PDG d'OpenAI
Lors d’un témoignage devant une commission sénatoriale américaine hier, Mr. Altman a été interrogé par des législateurs américains sur l’approche de l’entreprise en matière de protection de la vie privée et le PDG d’OpenAI a cherché à cadrer étroitement le sujet en ne faisant référence qu’aux informations activement fournies par les utilisateurs du chatbot d’IA – notant, par exemple, que ChatGPT permet aux utilisateurs de spécifier qu’ils ne veulent pas que leur historique de conversation soit utilisé comme données d’entraînement. (une fonction qu’il n’offrait pas initialement)
Interrogé sur les mesures spécifiques qu’il a prises pour protéger la vie privée, Mr. Altman a déclaré à la commission sénatoriale : « Nous ne nous formons sur aucune donnée soumise à notre API. Donc, si vous êtes un client professionnel et que vous soumettez des données, nous ne nous formons pas du tout dessus… Si vous utilisez ChatGPT, vous pouvez choisir de ne pas nous permettre de nous former sur vos données. Vous pouvez également supprimer votre historique de conversation ou votre compte tout entier. »
Mais il n’avait rien à dire sur les données utilisées pour fabriquer le modèle initial.
Le cadrage étroit d’e Mr. Altman sur ce que signifie la vie privée a contourné la question fondamentale de la légalité des données d’entraînement. Appelez cela le ‘péché originel de la vie privée’ de l’IA générative, si vous voulez. Mais il est clair que l’élision de ce sujet va devenir de plus en plus difficile pour OpenAI et ses semblables qui grattent les données alors que les régulateurs en Europe s’attellent à faire appliquer les lois existantes sur la vie privée aux systèmes d’IA puissants.
Dans le cas d’OpenAI, elle continuera à être soumise à un patchwork d’approches d’application à travers l’Europe car elle n’a pas de base établie dans la région – ce qui signifie que le mécanisme du guichet unique du RGPD ne s’applique pas (comme c’est généralement le cas pour les grandes technologies) donc toute chaque autorité est compétente pour réguler si elle croit que les données des utilisateurs locaux sont traitées et que leurs droits sont en danger. Ainsi, alors que l’Italie a frappé fort plus tôt cette année avec une intervention sur ChatGPT qui a imposé une ordonnance d’arrêt du traitement en parallèle à l’ouverture d’une enquête sur l’outil, le gendarme français n’a annoncé une enquête qu’en avril, en réponse à des plaintes. (l’Espagne a également déclaré qu’elle enquêtait sur la technologie, encore une fois sans aucune action supplémentaire pour l’instant.)
Une autre différence avec l’approche d’autres autorités européennes est que la CNIL semble préoccupée par un éventail plus large de problèmes que la liste préliminaire de l’Italie – y compris en considérant comment le principe de limitation des finalités du RGPD devrait s’appliquer à des modèles de langage de grande envergure comme ChatGPT. Ce qui suggère qu’elle pourrait finir par ordonner un ensemble plus large de changements opérationnels si elle conclut que le RGPD est enfreint.
« La CNIL soumettra bientôt à une consultation un guide sur les règles applicables au partage et à la réutilisation des données », écrit-elle. « Ce travail inclura la question de la réutilisation des données librement accessibles sur internet et maintenant utilisées pour l’apprentissage de nombreux modèles d’IA. Ce guide sera donc pertinent pour certaines des opérations de traitement des données nécessaires à la conception de systèmes d’IA, y compris les IA génératives.
« Elle poursuivra également son travail sur la conception de systèmes d’IA et la construction de bases de données pour l’apprentissage machine. Ces travaux donneront lieu à plusieurs publications à partir de l’été 2023, à la suite de la consultation qui a déjà été organisée avec plusieurs acteurs, afin de fournir des recommandations concrètes, en particulier en ce qui concerne la conception de systèmes d’IA tels que ChatGPT. »
Les autres sujets que la CNIL compte aborder
Voici le reste des sujets que la CNIL dit qu’elle abordera « progressivement » via les futures publications et les directives sur l’IA qu’elle produit :
- l’utilisation du système de recherche scientifique pour l’établissement et la réutilisation des bases de données d’entraînement
- l’application du principe de finalité aux IA à usage général et aux modèles de base tels que les grands modèles de langage
- l’explication du partage des responsabilités entre les entités qui constituent les bases de données, celles qui élaborent des modèles à partir de ces données et celles qui utilisent ces modèles
- les règles et meilleures pratiques applicables à la sélection des données pour l’entraînement, eu égard aux principes d’exactitude et de minimisation des données
- la gestion des droits des individus, en particulier les droits d’accès, de rectification et d’opposition
- les règles applicables en matière de durée de conservation, en particulier pour les bases d’entraînement et les modèles les plus complexes à utiliser
- enfin, consciente que les questions soulevées par les systèmes d’intelligence artificielle ne s’arrêtent pas à leur conception, la CNIL poursuit également ses réflexions éthiques [suite à un rapport qu’elle a publié en 2017] sur l’utilisation et le partage des modèles d’apprentissage machine, la prévention et la correction des biais et des discriminations, ou la certification des systèmes d’IA.
Sur l’audit et le contrôle des systèmes d’IA, le régulateur français stipule que ses actions cette année se concentreront sur trois domaines : le respect d’une position existante sur l’utilisation de la vidéosurveillance « améliorée », qu’il a publiée en 2022 ; l’utilisation de l’IA pour lutter contre la fraude (comme la fraude à l’assurance sociale) ; et l’enquête sur les plaintes.
Il confirme également qu’il a déjà reçu des plaintes concernant le cadre juridique pour l’entraînement et l’utilisation des IA génératives — et dit qu’il travaille sur des clarifications à ce sujet.
« La CNIL a notamment reçu plusieurs plaintes contre la société OpenAI qui gère le service ChatGPT, et a ouvert une procédure de contrôle », ajoute-t-elle, notant l’existence d’un groupe de travail dédié qui a été récemment mis en place au sein du Comité européen de la protection des données pour tenter de coordonner la manière dont les différentes autorités européennes abordent la régulation du chatbot d’IA (et produire ce qu’elle facture comme une « analyse harmonisée du traitement des données mis en œuvre par l’outil OpenAI »).
Dans d’autres mots d’avertissement pour les fabricants de systèmes d’IA qui n’ont jamais demandé la permission des gens pour utiliser leurs données, et qui peuvent espérer un pardon futur, la CNIL note qu’elle portera une attention particulière à savoir si les entités qui traitent des données personnelles pour développer, entraîner ou utiliser des systèmes d’IA ont :
- réalisé une évaluation d’impact sur la protection des données pour documenter les risques et prendre des mesures pour les réduire
- pris des mesures pour informer les personnes
- prévu des mesures pour l’exercice des droits des personnes adaptées à ce contexte particulier.
Quant au soutien aux acteurs innovants de l’IA qui souhaitent se conformer aux règles européennes (et aux valeurs), la CNIL a mis en place un bac à sable réglementaire depuis quelques années — et elle encourage les entreprises et les chercheurs en IA qui travaillent sur le développement de systèmes d’IA qui respectent les règles de protection des données personnelles à prendre contact (via ia@cnil.fr).
Vous pouvez trouver l’article de la CNIL dans le lien ci-dessous :
https://www.cnil.fr/fr/intelligence-artificielle-le-plan-daction-de-la-cnil