B. METTRE EN oeUVRE UNE DOCTRINE DE PROTECTION DES DONNÉES PERSONNELLES
Pour vos rapporteurs, cette nouvelle impulsion donnée à l' open data est consubstantielle d'une meilleure prise en compte des dangers qui menacent les données privées. Pour prévenir ceux-ci et remédier aux faiblesses de la situation actuelle, une véritable doctrine de protection des données personnelles doit être mise en oeuvre.
Cette doctrine se décline en quatre points.
1. Anticiper et évaluer
Les experts entendus par vos rapporteurs s'accordent sur un point : la protection la plus efficiente est celle conçue dès l'origine. Les bases de données créées par l'administration devraient dès leur origine garantir le respect de la vie privée, ce que l'on désigne parfois par l'expression anglaise de « privacy by design ». Les bases de l'assurance maladie, déjà évoquées (SNIIRAM et PMSI) ont été pensées sur ce modèle.
La démarche d' open data impose cependant d'adapter cette précaution : il ne faut plus seulement assurer la confidentialité de la base lorsqu'elle est utilisée par l'administration, il faut aussi garantir celle des données personnelles, si cette base devait être mise en ligne en tout ou partie.
D'un point de vue pratique, il convient donc d'une part, d'anticiper ses modalités d'anonymisation éventuelle et concevoir la structure de la base pour faciliter cette anonymisation, et, d'autre part, de veiller à ce que les jeux de données publiés puissent être tracés, comme l'a recommandé la représentante de l'association pour la diffusion de l'informatique juridique, Mme Nathalie Metallinos, afin de suivre les mésusages qui pourraient en être faits.
Recommandation n° 5 Prévoir, dès la conception de la base, dans la perspective de sa possible ouverture : - les modalités de son anonymisation éventuelle ; - le cas échéant, le marquage des jeux de données afin d'être en mesure de suivre les réutilisations éventuelles et dénoncer les mésusages |
De telles précautions ne sont pas une assurance contre toute menace sur les données personnelles. Conformément à l'exception apportée au principe de l' open data , il est nécessaire d'évaluer le risque sur les données personnelles, en cas de mise en ligne, pour décider de s'y opposer ou non.
Il s'agit d'une démarche habituelle, promue notamment par la CNIL dans ses guides pratiques 55 ( * ) . Elle est au coeur de la stratégie mise en oeuvre par l' Information Commissioner's Office (ICO) - équivalent britannique de la CNIL et de la CADA réunies 56 ( * ) .
Elle consiste à s'interroger préalablement à l'ouverture de la base sur les risques de ré-identification ou de fuites de données personnelles, ainsi que sur leurs conséquences, et à déterminer s'il est souhaitable ou non de procéder à cette ouverture. Cette analyse est effectuée par l'administration concernée, qui peut la reconduire à intervalles réguliers, pour tenir notamment compte des nouvelles possibilités de ré-identification.
Recommandation n° 6 Procéder, préalablement à tout examen de l'opportunité d'ouvrir une base de données, ainsi, le cas échéant, qu'à intervalles réguliers, à une analyse du risque de ré-identification et des conséquences possibles d'une telle ré-identification |
2. Adapter la diffusion en fonction du risque
L'analyse du risque doit aboutir à une décision. Cependant, il faut éviter d'enfermer celle-ci dans un schéma binaire de refus complet ou d'acceptation totale.
En effet, le bénéfice pour la société d'une ouverture du jeu de données peut ne pas être négligeable. À cet égard, vos rapporteurs considèrent que, même s'il ne s'agit plus à proprement parler d' open data , puisqu'un contrôle s'exerce alors sur le réutilisateur et la finalité de sa réutilisation, des procédures d'accès restreint à certaines données sensibles participent du même mouvement, puisqu'elles permettent d'en tirer un bénéfice social.
La France dispose d'ores et déjà, avec l'accès aux données statistiques, contrôlé par le conseil national de l'information statistique et son comité du secret statistique ou l'accès aux données de santé de plusieurs modèles solides d'accès restreint, qui ont fait leurs preuves ( cf. encadré) 57 ( * ) . Ces modèles évoluent actuellement dans le sens d'une ouverture plus grande, mais toujours maîtrisée.
De telles solutions peuvent utilement inspirer le législateur ou les administrations, pour définir un continuum de modalités d'accès aux informations détenues par les administrations, afin d'adapter la diffusion au risque pesant sur les données personnelles.
Recommandations n° 7 et 8 En cas de risque avéré sur les données personnelles, impossible à éliminer par des procédés d'anonymisation, refuser l'ouverture des données ou, si le bénéfice social attendu de cette ouverture est jugé trop important, procéder à une ouverture restreinte de cette base Concevoir à cette fin un continuum de solutions d'accès aux données, allant de l' open data , jusqu'aux modes d'accès les plus sélectifs |
Deux exemples d'accès restreint à des données sensibles
La réglementation en vigueur distingue deux types d'accès à cette base de données, l'un permanent, l'autre ponctuel. L'accès permanent est régi principalement par un arrêté du ministre chargé de la sécurité sociale, pris après avis motivé de la CNIL, qui désigne les organismes ou administration bénéficiaire d'un tel accès. L'étendue de cet accès varie en fonction de la nature de l'entité concernée. Ainsi, seuls les organismes gestionnaires de l'assurance maladie (régimes de base d'assurance maladie, caisse nationale de solidarité pour l'autonomie) et les agences publiques exerçant une mission de veille dans le domaine de la santé (institut de veille sanitaire, haute autorité de santé, agence nationale de la sécurité du médicament et des produits de santé, médecins des agences régionales de santé) ont accès à la totalité des données. Ont accès aux données agrégées de la base, ainsi qu'à un échantillon des bénéficiaires, les services des ministères compétents et ceux des agences régionales de santé, certaines agences de santé (agence de la biomédecine, agence technique de l'information sur l'hospitalisation, institut des données de santé...), des centres de recherches (CNRS, institut national du cancer, institut national de la santé et de la recherche médicale...), ainsi que des fédérations professionnelles ou de patients (fédérations hospitalières, union des professions de santé, collectif interassociatif sur la santé). Enfin, ont seulement accès aux données agrégées, les fédérations professionnelles régionales, ou les associations membres des collectifs associatifs précédemment évoqués 58 ( * ) Les accès ponctuels correspondent à l'accès, limité dans le temps, à une sous-base du SNIIRAM, ou à l'obtention d'une extraction des données, à des fins de recherche principalement. Seules les demandes à but non lucratif sont recevables. Selon le cas, l'autorisation d'accès doit être validée par l'institut des données de santé (accès temporaire aux données agrégées ou à l'échantillon des bénéficiaires) ou par cet institut et la CNIL (extraction de données du SNIIRAM). Les demandes sont instruites selon une procédure complexe qui peut aussi faire intervenir, outre ces deux institutions, le comité consultatif sur le traitement de l'information en matière de recherche dans le domaine de la santé ou le conseil national de l'information statistique.
Les fondements de la protection des données des enquêtes statistiques conduites par l'INSEE ont été posés dès les années 50, par la loi n° 51-711 du 7 juin 1951 sur l'obligation, la coordination et le secret en matière de statistiques, qui a créé, en contrepoint de l'obligation de répondre aux enquêtes statistiques, la garantie du secret sur les informations ainsi communiquées. Cette loi a institué un comité du secret statistique, placé auprès du conseil national de l'information statistique, et chargé de se prononcer sur toute demande d'accès aux données individuelles collectées dans le cadre d'enquêtes de l'INSEE, formulée par une équipe de recherche. Afin de faciliter l'accès à ces données, en conservant le même degré de protection des données personnelles, l'INSEE a mis en place un dispositif technique, le centre d'accès sécurisé distant aux données (CASD), qui permet au service producteur des données de surveiller les opérations effectuées sur les données, d'éviter certains croisements ou extractions de données, tout en apportant au chercheur l'ensemble des éléments dont il a besoin. Les équipes de recherche ont aussi la possibilité d'accéder à des données anonymisées, soit publiées directement sur le site de l'INSEE sous forme de statistiques agrégées, soit extraites à la demande et anonymisées, sous condition de licence d'usage, interdisant notamment la rediffusion à destination de tiers. |
3. Assurer une veille sur la diffusion et les réutilisations des données mises en ligne
Comme on l'a vu précédemment, les risques pour la vie privée de nos concitoyens procèdent soit d'une ré-identification des données personnelles à la faveur de certaines réutilisations, soit d'un manque de vigilance des administrations qui, sans le savoir, auraient publié dès l'origine des informations privées.
La doctrine de protection des données personnelles de l'administration, dans le cadre de l' open data , ne serait donc pas complète, si elle n'incluait pas une veille sur la diffusion et les réutilisations des jeux de données publiés.
Certes, ce contrôle échoit aussi à la CNIL, qui peut sanctionner les réutilisateurs qui cherchent à lever l'anonymisation des jeux de données. Toutefois, il sera souvent plus expédient que l'administration, avertie de la fuite, s'efforce d'y parer.
Vos rapporteurs se sont interrogés sur la façon dont cette veille devrait s'exercer et elle leur a paru pouvoir emprunter deux canaux : le premier est celui de l'alerte citoyenne. Si le site data.gouv.fr permet déjà aux réutilisateurs d'avertir par mail l'hébergeur des données de ce qu'elles paraissent présenter un défaut, tous les sites des administrations, loin de là, ne prévoient pas une formule aussi commode, pourtant très habituelle sur internet. Le procédé pourrait donc être étendu.
Par ailleurs, il conviendrait de tirer parti de ce que les administrations sont elles-mêmes consommatrices des jeux de données qu'elles diffusent, via , par exemple leur intranet, ce qui leur offre l'occasion, dans leurs tâches habituelles de gestion de déceler les éventuels défauts des informations publiées. Ceci renforce leur capacité de veille.
Cette obligation de veille devrait être étendue aux jeux de données publiés par d'autres contributeurs que les administrations, et hébergés sur un site public, comme celui de data.gouv.fr , qui met en avant cette démarche collaborative.
En effet, si la loi pour la confiance dans l'économie numérique 59 ( * ) a mis en place un régime de responsabilité limité pour l'hébergeur de contenus édités par un tiers, ce dernier régime ne concerne que la responsabilité civile de l'hébergeur. Or, les personnes publiques relèvent en principe d'un régime de responsabilité administrative. Il n'est donc pas certain que la limitation de responsabilité prévue par cette loi s'applique à elle, d'autant plus que l'activité d'hébergeur exercée par la puissance publique dans le cadre de l' open data pourrait tout à fait être conçue comme une activité d'intérêt général, dans la mesure où il s'agit, par ce biais, d'enrichir le bien commun des données mises à disposition. Cette incertitude sur le régime juridique applicable à l'administration a été confirmé à vos rapporteurs par les services de la CNIL. Elle pourrait être lourde de conséquence, puisqu'un particulier, victime de la diffusion de données personnelles sur un site public, pourrait ainsi être autorisé à poursuivre l'administration responsable de cette mise en ligne.
Il apparaît donc sage d'étendre le devoir de surveillance des administrations aux données publiées par des tiers sur leur propre site, qui peuvent parfois d'ailleurs être des données publiques retraitées par leurs soins.
Recommandations n° 9 et 10 Assurer une veille sur la diffusion et les réutilisations des données publiques, en facilitant notamment les procédures par lesquelles un réutilisateur peut alerter l'administration compétente Assurer aussi cette veille sur les données publiées par des tiers sur les sites publics |
En cas de ré-identification ou de diffusion accidentelle de données personnelles, l'administration doit y porter remède.
Ceci suppose bien entendu de mettre fin à la mise en ligne des informations compromises. D'autres solutions sont envisageables : reconfigurer la base de données, pour prévoir un degré d'agrégation supérieur ou supprimer la donnée à l'origine du problème.
Le rapatriement des jeux de données compromis se heurte au fait qu'une donnée ouverte est une donnée qui circule et est reprise par d'autres. Toutefois, dans les cas les plus graves, il peut être du devoir de l'administration de tenter malgré tout de rapatrier ces données ou d'en limiter la circulation. Le marquage des jeux de données trouve ici son utilité, comme l'archivage, par l'administration, des coordonnées des réutilisateurs si ceux-ci ont accédé au service par un compte dédié ou une adresse mail. L'administration peut aussi demander le déréférencement sur les moteurs de recherches des jeux de données compromis, hébergés sur d'autres sites que le sien, ou proposer aux réutilisateurs de leur adresser une nouvelle base non défectueuse.
Vos rapporteurs s'étonnent que cette question importante ne soit pas traitée par le mémento précité du COEPIA, consacré à la protection des données personnelles dans le cadre de l' open data . Ils jugent ainsi nécessaire que l'administration se penche sur la stratégie de rapatriement ou de suppression des jeux de données compromis qu'elle pourrait mettre en oeuvre, afin de réagir rapidement et efficacement en une telle occurrence.
Recommandation n° 11 Prévoir que l'administration définisse une stratégie de rapatriement ou de suppression des jeux de données compromis, afin de remédier rapidement à la diffusion accidentelle d'informations personnelles |
4. Renforcer la protection offerte par la licence de réutilisation
Le recours aux licences en matière d' open data vise à garantir la libre réutilisation des données d'un réutilisateur à l'autre, ou, dans certains cas spécifiques, à encadrer les conditions de cette réutilisation (redevance, limitation des droits etc. ).
Il semble à vos rapporteurs que cet instrument pourrait aussi être mobilisé pour renforcer la protection des données personnelles.
Vos rapporteurs se sont à cet égard étonnés que la licence ouverte publiée par Etalab , n'exclue pas expressément les données personnelles de son champ. L'expression « données personnelles » n'est d'ailleurs mentionnée qu'à l'occasion de la citation de l'article 10 de la loi « CADA », dans un « à propos » explicatif à la fin du contrat de licence.
Même si cette absence est de peu d'effet, puisque les dispositions légales s'imposent en tout état de cause et qu'elles excluent la réutilisation de données personnelles, en dehors du cadre fixé par la loi « Informatique et libertés », elle témoigne assurément d'un manque de pédagogie. Cette lacune est d'autant plus surprenante que la licence ouverte britannique 60 ( * ) , rappelle expressément que les données personnelles sont exclues de son champ d'application.
De la même manière vos rapporteurs jugent pertinent de préciser, au titre des prohibitions d'usage, l'interdiction de soumettre le jeu de données utilisé à un traitement destiné à permettre la ré-identification de personnes physiques.
Enfin, il leur semble nécessaire d'intégrer aux contrats de licence une clause prévoyant que le service producteur peut suspendre le droit de réutilisation, supprimer ou demander le rapatriement du jeu de données, s'il s'avère qu'il présente un risque pour le respect de la vie privée. L'intérêt d'une telle mention serait d'éviter tout recours contre l'administration, sans faute lourde, pour le préjudice éventuellement causé au réutilisateur à raison de la suppression de ce jeu d'informations.
Recommandations n° 12, 13 et 14 Exclure expressément les données personnelles du champ d'application de la licence ouverte utilisée par les administrations pour la réutilisation des données publiques Interdire expressément dans le contrat de licence toute réutilisation abusive qui aboutirait à lever l'anonymisation des données Intégrer au contrat de licence, une clause de suspension légitime du droit de réutilisation, ainsi que de suppression ou de rapatriement des jeux de données compromis lorsqu'un risque de ré-identification est apparu |
*
55
Cf.
CNIL,
Guide : Gérer les risques sur les libertés et la
vie privée
, disponible à l'adresse suivante :
http://www.cnil.fr/fileadmin/documents/Guides_pratiques/CNIL-guide_Securite_avance_Methode.pdf
.
* 56 Sur cette stratégie, cf. le guide pratique de l'ICO, Anonymisation : managing data protection risk code of pratice, disponible à l'adresse suivante :
* 57 D'autres modèles existent, comme celui de l'accès aux informations fiscales, récemment étendu par la modification apportée par la loi n° 2013-660 du 22 juillet 2013 relative à l'enseignement supérieur et à la recherche à l'article L. 135 D du livre des procédures fiscales, ou celui de l'accès au fichier national des immatriculations de véhicules (art. L. 330-1 à L. 330-5 du code de la route).
* 58 Pour une liste complète cf. Pierre-Louis Bras, André Loth, Rapport sur la gouvernance et l'utilisation des données de santé , préc., p. 31-34.
* 59 Article 6 de la loi n° 2004-575 du 21 juin 2004 pour la confiance dans l'économie numérique.
* 60 Open Government Licence, disponible à l'adresse suivante :
http://www.nationalarchives.gov.uk/doc/open-government-licence/version/2/ .