B. PROMOUVOIR UNE DÉMARCHE RAISONNÉE D'OUVERTURE DES DONNÉES PUBLIQUES
La démarche d' open data actuellement engagée présente d'indéniables mérites, dont le moindre n'est pas d'avoir peu à peu converti certaines administrations à cette pratique. Toutefois, on a vu précédemment qu'elle n'était pas exempte d'insuffisances et que, faute d'une méthodologie bien claire, il risquait d'en résulter un certain désordre dans l'ouverture des données.
Afin de conjurer ce risque, il apparaît nécessaire à votre mission commune d'information de mettre en place une démarche raisonnée d'ouverture des données publiques. Celle-ci se décline en quatre points : structurer et prioriser l'ouverture (1), l'anticiper dès la production des données et la normaliser (2), développer la culture d' open data au sein des administrations (3) et assurer le respect des règles de réutilisation (4).
1. Organiser la démarche d'ouverture
Phénomène récent, l'ouverture des données publiques n'est pas encore pleinement entrée dans les moeurs des administrations. On a vu précédemment qu'en dépit de progrès encourageants et de l'engagement réel des pouvoirs publics, le nombre de données disponibles et leur qualité sont inférieurs à ce qu'ils pourraient être.
Le mouvement engagé doit bien entendu être poursuivi. Il semble toutefois nécessaire à votre mission d'organiser de manière plus systématique la démarche d'ouverture, à partir de l'identification et de l'analyse systématique des gisements de données existants (a), de la priorisation des mises en lignes de données ouvertes (b), enfin de la définition pour chaque administration d'objectifs assortis d'un calendrier de réalisation (c).
a) Identifier et analyser les gisements de données existants
Dans le cadre des débats thématiques organisés, conformément aux préconisations du troisième comité interministériel pour la modernisation de l'action publique (Cimap), sur le logement, la santé et l'enseignement supérieur, un recensement complet des jeux de données existant en ces matières a été engagé.
Or, un tel recensement est un préalable nécessaire à toute démarche raisonnée d'ouverture des données publiques : pour décider de celles qu'on peut diffuser, il faut connaître les données qu'on possède.
S'étant prononcée en faveur du développement de l' open data , et recommandant plus haut l'établissement de répertoires des principaux documents administratifs disponibles, votre mission estime que la même démarche de recensement systématique doit être aujourd'hui étendue à l'ensemble des administrations .
Ce recensement doit s'accompagner d'une évaluation de la nature et de la qualité des jeux de données identifiés, qui permettra de décider ensuite s'il est possible ou non de les diffuser, et sous quel format. L'évaluation devrait à ce titre porter sur :
- le statut juridique des données, afin de déterminer si elles entrent dans les exceptions à la réutilisation prévues par la loi ;
- leurs caractéristiques techniques, comme le format sous lequel elles sont enregistrées (format propriétaire ou non) ;
- l'intérêt des données et le public auquel elles pourraient s'adresser, compte tenu de leur plus ou moins grande complexité ;
- les coûts d'une éventuelle ouverture, comme, par exemple, ceux associés à l'anonymisation des données, à leur documentation, à leur transcription sous un autre format, ou encore à l'automatisation de leur diffusion.
Pour les données déjà mises en ligne, l'évaluation devrait porter sur leur qualité, la nécessité éventuelle de procéder à leur enrichissement ou à leur mise à jour ainsi que sur le coût prévisible de ces améliorations.
L'aboutissement d'un tel recensement devrait être l'établissement d'une cartographie détaillée de l'ensemble des bases de données publiques. Il permettra ainsi de pouvoir disposer d'une évaluation précise de l'état d'avancement de la démarche d'ouverture, administration par administration.
Recommandation principale n° 11 Recenser l'ensemble des bases de données détenues par l'administration, en précisant, pour chacune, sa nature, sa qualité et ses caractéristiques techniques, afin d'évaluer l'opportunité et le coût de son ouverture ainsi que, pour celles déjà mises en ligne, celui de leur amélioration ou de leur mise à jour. À partir de ce recensement, établir une cartographie systématique des bases de données publiques. |
b) Prioriser les mises en ligne de données ouvertes
En même temps qu'elle recense les bases de données qu'elle détient et évalue le coût de leur mise en ligne ou de leur enrichissement, l'administration doit prendre connaissance des principales demandes qui s'expriment à cet égard.
Plusieurs attentes ont ainsi été formulées devant votre mission : données plus complètes sur les risques environnementaux, accès élargie aux données de santé anonymisées, carte scolaire, localisation des faits de délinquance, détails des dépenses publiques... M. Simon Chignard a notamment insisté à cet égard sur l'importance de données « pivot », celles « qui jouent un rôle fondamental pour l'infrastructure informationnelle du pays - données du cadastre, du registre des entreprises, de la base des codes postaux [parce qu'] elles sont au coeur de multiples services et de réutilisations possibles ».
Ces attentes peuvent être non seulement celles de la société civile ou des entreprises, mais aussi, dans certains cas, celles des administrations elles-mêmes, qui peuvent tirer profit de l'ouverture d'une base de données 332 ( * ) .
Sur cette base, l'administration, avec l'aide d' Etalab et, le cas échéant, de son réseau d'experts, doit décider quelles mises en ligne ou quels enrichissements sont prioritaires et sous quelles formes (mise en ligne brute, après retraitement ou enrichissement pour en faciliter la lecture etc. ) afin d'y consacrer les moyens nécessaires .
Une question se pose : faudra-t-il faire prévaloir la qualité des données mises en ligne, ou la rapidité et le nombre de mises en ligne ? Dans le premier cas, le risque serait de ralentir la conversion de l'administration à l'ouverture de ses données, en engageant tous les moyens disponibles sur quelques projets de haute tenue ; dans le second, le danger serait plutôt de multiplier les mises en ligne de faible qualité, les administrations satisfaisant à bon compte l'exigence d'ouverture des données. On comprend certes l'avantage de mises en ligne nombreuses : elles signaleront l'attention portée par les pouvoirs publics à l' open data tout en y familiarisant peu à peu les services. Votre mission juge pourtant que cet avantage ne saurait compenser l'inconvénient d'un open data de piètre qualité, qui pourrait aboutir à de graves échecs, compte tenu des enjeux qu'engage cette ouverture, notamment en termes de normalisation des données ou de protection de la vie privée 333 ( * ) . Elle estime donc nécessaire de donner la priorité à la qualité des mises en ligne .
Cette priorisation des mises en ligne ne saurait toutefois exclure que d'autres jeux de données , qui ne présenteraient pas de risques particuliers, soient ouverts, dès lors que cette ouverture ne sollicite pas les moyens du service au détriment des mises en ligne jugées prioritaires. En effet, l'administration pourrait être en mesure d'améliorer ultérieurement la qualité de ces jeux de données. En outre, les réutilisateurs seraient alors informés de cette moindre qualité, par l'administration elle-même ou dans le cadre de l'évaluation collaborative.
Recommandation principale n° 12 Prioriser l'ouverture des données publiques : identifier les jeux de données à rendre prioritairement disponibles ou, s'ils sont déjà en ligne, à enrichir, en fonction des coûts et des attentes exprimées par la société civile ou les administrations. Permettre aux administrations, pour le surplus, de mettre en ligne d'autres jeux de données ne présentant pas de difficulté particulière dans la mesure où cela ne retarde pas les mises en ligne prioritaires et à la condition qu'elles signalent le niveau de qualité de ces informations. |
c) Définir pour chaque administration des objectifs assortis d'un calendrier de réalisation
Une fois que l'administration aura décidé quelles mises en ligne sont prioritaires, elle pourra organiser concrètement cette opération. En dépit de succès significatifs, les leçons tirées des expériences passées conduisent votre mission commune d'information à recommander de recourir à une programmation contraignante de ces opérations . En effet, l'exigence de transparence administrative et celle d'ouverture des données publiques n'ayant pas toujours été totalement intégrées par les administrations, il est à craindre que celles-ci ne donnent la priorité à d'autres chantiers.
Or, il faut convaincre les administrations qu'elles doivent accomplir cette mission à l'égale de leurs autres missions. Pour ce faire, il apparaît nécessaire à votre mission de définir des objectifs précis de mise en ligne, qui porteraient tant sur ses modalités (format retenu, fréquence de mise à jour envisagée, enrichissement éventuel...), que sur le calendrier d'ouverture . Ces objectifs devraient figurer dans le contrat d'objectifs passé avec l'autorité de rattachement. Les administrations seraient par ailleurs tenues à une obligation de rendre régulièrement compte auprès de cette autorité des avancées de la mise en ligne.
Le secrétariat général pour la modernisation de l'action publique (SGMAP) pourrait alors assurer, à travers sa structure Etalab, un suivi centralisé de la progression, administration par administration, de l'ouverture des données publiques - chantier prioritaire pour la modernisation de l'action publique.
Recommandation principale n° 13 Inscrire les objectifs et le calendrier d'ouverture des bases de données publiques dans les contrats d'objectifs des administrations. Prévoir l'obligation, pour chaque administration, de rendre compte régulièrement et précisément de l'avancée des opérations. Confier au secrétariat général pour la modernisation de l'action publique (SGMAP), le suivi, à partir des comptes rendus établis par les administrations, de l'ouverture de leurs données. |
2. Préparer l'ouverture des données
Le champ des données aujourd'hui ouvertes se caractérise par sa grande disparité. La disparité est d'abord technique, liée aux formats utilisés, à la documentation des données ou à leur granularité plus ou moins fine. Elle est ensuite juridique, fonction des droits qui les grèvent ou des licences sous lesquelles elles peuvent être exploitée. Ces disparités constituent un obstacle pour la mise en ligne des données et leur libre réutilisation. Il convient de les réduire, dans la mesure du possible, en préparant très tôt l'ouverture des données. L'administration doit à cet égard faire preuve d'anticipation (a) et soumettre ses données à un cadre de normalisation technique et juridique, préalablement à leur mise en ligne (b).
a) Anticiper l'ouverture des données dès leur production
Le recueil ou la production par l'administration de ses données constitue un moment crucial pour l'ouverture ultérieure de celles-ci. En effet, certains choix effectués à ce stade peuvent empêcher durablement sinon définitivement cette ouverture.
Il en va ainsi, comme on l'a vu précédemment, de la décision de soumettre un chantier de numérisation de livres imprimés à un opérateur privé qui demande en paiement une exclusivité temporaire d'exploitation. De la même manière, l'enregistrement des données sous un format de logiciel dit « propriétaire » limitera les possibilités de réutilisation. Recueillir, au sein d'une même base, des données nominatives et des données qui ne présentent aucun caractère personnel posera une difficulté supplémentaire lorsqu'il faudra, pour publier certaines informations, en disjoindre ou occulter les éléments nominatifs. Inversement, concevoir la base de données de manière à faciliter l'extraction des données non nominatives permet d'en assurer la compatibilité avec l' open data .
L'exigence d'ouverture étant désormais bien établie, il faut veiller à ce que cette possibilité soit envisagée le plus tôt possible. Votre mission recommande par conséquent d'anticiper dès la production ou le recueil des données l'éventualité de leur mise en ligne future . Cette anticipation doit jouer à plusieurs niveaux, en particulier, lors de la conclusion des appels d'offre, pour éviter toute appropriation des données par l'opérateur privé, ou lors de la conception de la base, pour choisir des formats ou une structuration adaptée à l'ouverture.
Recommandation principale n° 14 Anticiper l'ouverture éventuelle des données dès le stade de leur production ou de leur recueil. À cet effet : - prévenir, lors des appels d'offre, les clauses susceptibles de grever les données de droits contrecarrant cette ouverture ; - organiser le recueil des données et structurer la base sur laquelle elles sont enregistrées dans la perspective de l'ouverture, afin de faciliter, en particulier, les extractions, les occultations ou les anonymisations ; - systématiser l'utilisation de formats d'enregistrement et de traitement des données ouverts et réutilisables ; - prévoir l'automatisation de la production des jeux de données diffusés en open data . |
b) Définir, en vue de l'ouverture, un cadre de normalisation technique et juridique contraignant
Mettre de nombreux jeux de données à la disposition du public ne suffit pas à garantir qu'ils pourront être utilement exploités : encore faut-il que les modalités techniques de leur ouverture permettent aux réutilisateurs de s'en saisir aisément .
Or, plusieurs conditions doivent ainsi être réunies pour permettre une réutilisation :
- la première d'entre elles réside dans la convergence des formats sous lesquels les données sont mises à disposition, qui doivent être, dans la mesure du possible, des formats ouverts et peu diversifiés. Cette condition est indispensable non seulement à la simple prise en main des données par des tiers, mais également et plus largement à la construction d'une interopérabilité entre les différents systèmes d'information de l'État, des collectivités territoriales et des institutions européennes ;
- une réutilisation facile des données mises à disposition suppose ensuite à la fois qu'elles puissent être aisément trouvées, ce qui nécessite une opération d'indexation, et que les réutilisateurs puissent rapidement évaluer leur pertinence au regard de leurs besoins, ce qui appelle une qualification précise au moyen d'informations complémentaires aux jeux de données, les métadonnées. Là encore, il est souhaitable d'uniformiser cette documentation, afin de faciliter les recherches entre jeux de données différents.
C'est en ce sens que, lors son audition du 10 avril 2014 devant votre mission 334 ( * ) , M. Simon Chignard appelait de ses voeux la constitution d'un référentiel commun partageable, susceptible d'harmoniser les jeux de données entre eux. Dans son avis de 2012 relatif à l'ouverture des données publiques, le conseil national du numérique défendait déjà cette idée à travers sa neuvième proposition : « Élaborer un Référentiel Général de Réutilisabilité des données publiques, à destination des administrations. Ce référentiel doit notamment prendre en compte les notions de formats, de métadonnées, de standards, et d'anonymisation ». 335 ( * )
Votre mission partage ce souhait de constitution progressive d'un référentiel général de réutilisabilité (RGR) dont le but serait l'amélioration de la qualité des jeux de données ouverts.
Ce référentiel définirait les règles qui devraient être suivies, lors de la création de jeux de données, en matière, notamment :
- de documentation et de constitution des métadonnées ;
- de choix de formats et de structures de données selon ce que l'on veut représenter 336 ( * ) ;
- d'anonymisation des données ;
- de granularité, c'est-à-dire de finesse, des données ;
- de constitution de nomenclatures et de jeux de données de référence 337 ( * ) ;
- de normalisation des API 338 ( * ) .
L' open data doit composer avec le stock des jeux de données existants. Il n'est pas possible de les rendre tous compatibles avec ce référentiel. Celui-ci ne peut avoir pour eux qu'une valeur indicative , sorte de guide des bonnes pratiques, pour les faire évoluer dans la mesure du possible. En revanche, toute création ou modernisation d'un système d'information devrait lui être impérativement soumise , afin que tous les jeux de données qu'il produira y soient conformes.
Ce référentiel devrait par ailleurs être adossé au référentiel général d'interopérabilité (RGI), qui garantit le bon échange des données entre les administrations et les entreprises 339 ( * ) . Il pourrait être élaboré dans un cadre collaboratif, afin de prendre en compte les attentes des réutilisateurs de données.
La mission Etalab a d'ores et déjà commencé à prendre en compte ces exigences au travers de plusieurs chantiers lancés au cours de l'année 2013. Des champs de description normalisés permettant de préciser le contenu et le contexte des données mises à disposition ont ainsi été proposés aux producteurs de données publiques. Etalab travaille par ailleurs sur la diffusion de données par API, ou interfaces de programmation. La mission estime que ces premières orientations encourageantes doivent être poursuivies et progressivement généralisées à l'ensemble de la production de données publiques.
Recommandation principale n° 15 Établir un référentiel général de réutilisabilité des données, portant à la fois sur leur format, leur structuration, leur granularité, leur contextualisation, ainsi que sur la documentation des algorithmes permettant de procéder à des extractions et des agrégations. Définir en particulier des modèles de réutilisation standardisés respectant les normes d'interopérabilité et de lisibilité par une machine. |
Le même effort de normalisation doit être mis en oeuvre pour le cadre juridique. Il faut tout d'abord éviter la multiplication des licences de réutilisation. Deux prédominent actuellement, la licence ouverte, créée par l'État, et la licence ODbL ( open database license ). Il est souhaitable que les administrations s'y réfèrent par préférence.
Il convient par ailleurs de veiller à ce que, lorsque l'administration fait appel à un tiers pour la création ou la gestion d'une base de données, celui-ci soit bien soumis aux mêmes exigences relatives à l' open data que les services administratifs eux-mêmes. Pour s'en assurer, l'instrument le plus commode serait un " clausier " recensant l'ensemble des clauses conformes à la démarche d'ouverture des données publiques. Il servirait à la rédaction des cahiers des charges des marchés publics, afin d'imposer le respect de ces exigences à l'attributaire du marché.
Recommandation principale n° 16 Imposer le recours à des outils juridiques standardisés : - l'une des deux licences types (licence ouverte ou licence ODbL), en fonction du type d'usages, sous réserve d'adaptations limitées ; - des clauses types figurant dans des " clausiers " ou formulaires types rassemblant l'ensemble des clauses conformes à la démarche d'open data, en vue de la rédaction des appels d'offre publics. |
3. Développer des compétences et une culture de la donnée publique au sein des administrations
Les recommandations précédentes visaient à traduire les exigences de l' open data dans les procédures et dans les normes applicables par les administrations. Cependant, les unes comme les autres seront mises en oeuvre par des agents publics : le succès de la démarche d'ouverture des données suppose donc de les gagner à cette cause. Trois pistes méritent d'être explorées pour y parvenir.
La première est celle de la formation . Il semble nécessaire à la fois de renforcer les compétences des services techniques chargés de mettre en oeuvre l' open data et de former certains personnels administratifs aux enjeux de l'ouverture des données publics, afin que ceux-ci puissent jouer le rôle de référents en la matière pour tous les autres. Cette tâche semble actuellement confiée plutôt aux responsables des services informatiques ou aux Prada : il est sans doute nécessaire d'élargir le cercle de ces référents.
La deuxième piste consisterait à donner de la visibilité à cette démarche d'ouverture, à travers les deux documents de référence que constituent pour une administration le budget et l'organigramme. Dans la mesure en effet où la démarche d' open data mobilisera fortement les administrations, il semble normal qu'elle puisse être traduite dans les documents budgétaires, afin d'être intégrée à l'évaluation de la performance des services concernés . De la même manière, l'organigramme devrait clairement désigner le référent en cette matière, ainsi que les services compétents.
La troisième piste est celle de la sensibilisation des agents publics et des administrations aux enjeux d'intérêt général de l' open data , ainsi qu'au bénéfice que l'action publique peut en retirer . Il s'agirait ici de convaincre les intéressés que cette politique d'ouverture des données participe des missions de service public qu'ils mettent en oeuvre, notamment parce qu'elle donne aux citoyens les moyens de mieux connaître les services qu'ils leur rendent et de mieux en tirer parti. L'administration elle-même peut d'ailleurs en bénéficier : comme l'a souligné M. Simon Chignard lors de son audition, « chacun des acteurs publics doit avoir compris que l'ouverture des données publiques constitue un outil de travail pour lui ». Les efforts consentis en matière de normalisation, d'interopérabilité et de réutilisabilité profiteront aussi aux services administratifs qui pourront croiser entre eux des données jusqu'à présent cloisonnées.
Recommandation principale n° 17 Former à l' open data des acteurs identifiés au sein des administrations centrales et déconcentrées, ainsi que dans les collectivités territoriales et au sein des grands opérateurs publics ; renforcer les compétences techniques internes en matière d' open data . Afficher dans l'organigramme et la présentation budgétaire les moyens et les personnels affectés à l' open data . Sensibiliser les administrations et les agents publics aux enjeux d'intérêt général de l' open data et aux gains d'efficacité susceptibles d'en résulter pour l'action publique, y compris dans l'exercice de leur activité. |
4. Renforcer les contrôles sur la réutilisation des données
La liberté dont jouit le réutilisateur de données publiques n'est pas sans frein, comme on l'a vu précédemment. Les licences autorisent certes de multiples usages, mais la loi du 17 juillet 1978 organise la sanction de la méconnaissance des conditions conventionnelles de réutilisation et des atteintes portées à l'intégrité des données.
Au surplus, les réutilisations qui mettraient en cause des données personnelles (comme la « désanonymisation » d'une base) tomberaient sous le coup de la législation « informatique et libertés ».
Pour autant, votre mission commune d'information s'est interrogée sur l'opportunité de renforcer les contrôles en vigueur sur les réutilisations de données publiques, en contrepartie de la formidable expansion que va connaître l' open data .
La mission d'information de la commission des lois relative à la protection de la vie privée dans l' open data 340 ( * ) ayant déjà exploré la question des données personnelles, votre mission s'est attachée aux réutilisations susceptibles d'être sanctionnées sur le fondement de l'article 18 précité.
Elle a tout d'abord constaté que la Cada, compétente pour infliger la sanction, ne pouvait poursuivre le réutilisateur abusif qu'à la condition qu'une administration la saisisse 341 ( * ) , ce qui fait dépendre l'efficacité de la répression de la vigilance de l'administration concernée. Il semble aujourd'hui nécessaire de confier à la Cada un pouvoir d'auto-saisine qui lui permette de poursuivre de telles infractions sur l'alerte qui lui aurait été signalée. Ceci suppose, bien entendu, de la doter de moyens juridiques et humains d'investigation.
Enfin, il pourrait être envisagé d'alourdir le quantum des sanctions susceptibles d'être prononcées par la Cada, afin de tenir compte du fait que la réutilisation abusive des données publiques peut être le fait d'acteurs économiques importants qui ne seraient pas découragés d'agir par le plafond actuel de l'amende, fixé à 300 000 euros. Ce plafond pourrait être relevé très sensiblement, étant entendu que les acteurs économiques plus modestes continueraient d'être protégés par la limite de 5 % de leur chiffre d'affaire et le principe de proportionnalité de l'amende à la gravité du manquement et des avantages tirés de celui-ci.
Recommandation principale n° 18 Reconnaître à la Cada une capacité d'autosaisine aux fins de poursuite des réutilisations frauduleuses. La doter en conséquence de moyens juridiques et humains d'investigation. Alourdir significativement le quantum des sanctions afin de les rendre dissuasives, en relevant le plafond de l'amende maximale encourue. |
* 332 Il en est allé ainsi lorsqu'en 2011, le référentiel à grande échelle de l'IGN a été ouvert, gratuitement, à tous les organismes chargés d'une mission de service public.
* 333 Sur ce point, cf. notamment les conclusions de la mission d'information de la commission des lois conduite par nos collègues Gaëtan Gorce et François Pillet, précitée.
* 334 Le compte rendu de cette audition est reproduit dans le tome II..
* 335 Avis n° 12 du conseil national du numérique relatif à l'ouverture des données publiques (« Open data »), 5 juin 2012.
* 336 Voici un exemple dans le domaine géographique. On peut définir, comment on décrit la longitude et latitude d'un point géographique. On peut également normaliser les structures de données qui permettent de définir une zone géographique sur une carte par des polygones ou des courbes de Bézier.
* 337 Les codes officiels géographiques (COG), ou l'identifiant Siren des entreprises sont des jeux de données qui pourraient par exemple devenir des nomenclatures.
* 338 Voir le glossaire.
* 339 Le RGI est constitué par un ensemble de normes et bonnes pratiques communes aux administrations dans le domaine informatique. Il a pour objet de faciliter les échanges entre administrations et entre les administrations et le public ou les entreprises. C'est également un guide pour les directions des systèmes d'information des administrations afin de les aider dans leurs choix technologiques.
* 340 Rapport d'information n°469 (2013-2014), précité.
* 341 En vertu de l'article 22 de la loi précitée du 17 juillet 1978.