Intervention de Henri Verdier

Réunion du 1er octobre 2014 à 18h00
Commission de réflexion sur le droit et les libertés à l’âge du numérique

Henri Verdier, directeur d'Etalab, administrateur général des données :

Si je suis chargé, au sein des services du Premier ministre, de la politique d'ouverture des données publiques, je parle ce soir en mon nom propre. Nous sommes une commission de réflexion et de prospective : les questions naissantes que nous abordons sont loin d'être toutes tranchées !

Le mouvement de l'open data n'est pas qu'une expression, c'est une réalité que la démarche d'ouverture des données publiques et de transparence n'épuise pas. Il est l'occasion pour l'État de faire sa révolution numérique, c'est-à-dire d'entrer dans un ensemble de pratiques, de relations avec l'extérieur, de manières d'agir, d'intervenir dans la société et de créer de la valeur, qui sont elles-mêmes contemporaines du numérique.

Un premier paradoxe révèle à quel point ces questions sont neuves et complexes : on oscille sans arrêt, à leur sujet, entre un récit sur la transparence et un récit économique, en cherchant désespérément des solutions qui fonctionneraient pour les deux. Pour ma part, je ne suis pas certain que l'on puisse durablement fonder une démarche de création de biens communs numériques sur des concepts issus d'une réflexion sur la transparence.

En France, cependant, l'open data prend appui sur toute une tradition juridique de construction progressive de la transparence. La loi du 17 juillet 1978 portant diverses mesures d'amélioration des relations entre l'administration et le public et diverses dispositions d'ordre administratif, social et fiscal, dite loi CADA, en est une étape importante. Comme le souligne le Conseil d'État, il s'agit, somme toute, du seul levier en « droit dur » pour qui veut chercher les données et faire valoir ses droits.

L'open data ressortit également à une culture d'ingénieur. Le souhait d'obtenir des données brutes perturbe parfois les administrations : elles estiment qu'on peut faire dire tout et son contraire à ces données, qu'elles comportent des erreurs, etc. Mais, du point de vue d'un ingénieur qui sait jongler avec les données, il est insupportable de passer deux jours à toiletter un fichier auquel quelqu'un aura ajouté des règles de format, des couleurs ou des cryptogrammes. Lorsque Tim Berners-Lee fait scander à l'assistance d'une conférence TED (Technology, Entertainment and Design) : « We want raw data ! », « Nous voulons des données brutes ! », ce n'est pas un postulat philosophique ou épistémologique. Cela signifie : « Laissez-nous travailler, nous pouvons faire plus vite et mieux que vous ! Comment libérer toute la puissance de la donnée si on ne laisse pas les gens se faire une opinion en quelques minutes ? » Combien de fois ne sommes-nous pas contraints d'aller chercher une information à la page 1445 de tel ou tel rapport alors que, si nous avions disposé du tableau brut initial, une simple règle de trois nous aurait permis de retrouver cette donnée, assortie de nombreux autres chiffres correspondant à notre recherche ?

La réflexion sur les biens communs est ancienne, mais le web 2.0 lui a donné une nouvelle actualité. Des personnalités comme Tim O'Reilly ou Beth Noveck, fascinées, au tournant des années 2000, par la capacité des gens à fabriquer Wikipédia, TripAdvisor, OpenStreetMap, se sont demandé comment permettre à cette formidable énergie créatrice de s'investir également dans la sphère publique : les États doivent apprendre non seulement à délivrer des ressources pour aider à résoudre différents problèmes, mais à devenir eux-mêmes des plateformes pour que les gens prolongent et amplifient l'effort de la puissance publique. La donnée est souvent la première condition, mais il peut y en avoir d'autres : modèles, codes, puissance de calcul, etc. Cette deuxième tradition vient alimenter le récit de transparence.

En outre, la manipulation de données numériques conduit à travailler avec des codeurs, des développeurs, des personnes maîtrisant les « méthodes agiles », donc à injecter dans le fonctionnement de l'État les réflexes de l'internet et du web. C'est un puissant moyen de transformation de l'action publique.

C'est pourquoi la mission Etalab a été placée auprès du Premier ministre, avant de s'intégrer en 2012 au secrétariat général pour la modernisation de l'action publique (SGMAP), structure qui s'occupe de l'innovation de services et de la stratégie technologique de l'État.

L'ouverture des données comporte trois grandes dimensions : une dimension de démocratie, une dimension d'innovation économique et sociale et une dimension d'efficacité de l'État lui-même.

S'agissant de la démocratie, il est évident, comme le disait Edwy Plenel, que les informations les plus brûlantes et les plus gênantes ne vont pas se retrouver en ligne dans une démarche d'open data bienveillante et naïve. Il a fallu mettre en place une Commission nationale des comptes de campagne et des financements politiques, une Haute Autorité pour la transparence de la vie publique et diverses autres institutions pour construire les points de transparence et de redevabilité aux citoyens. La méthode n'est pas celle de l'ouverture passive. Cela dit, le mouvement de l'open data a permis des progrès en matière de transparence.

Outre cet aspect, l'open data est facteur de capacitation (empowerment). On peut donner aux citoyens des ressources pour qu'ils prennent des décisions plus informées et contribuent de manière plus éclairée au débat public. Nous avons des témoignages, par exemple, de discussions entre associations locales et municipalités au sujet d'aménagements routiers après qu'a été publiée en open data la carte géolocalisée des accidents de la route. Il ne s'agit pas seulement d'une transparence visant à « surveiller » un État supposé a priori fraudeur et paresseux : il s'agit aussi de livrer des ressources pour régler des problèmes et impliquer les personnes dans la décision publique. Pour certains, l'aboutissement de l'open data est l'open government, c'est-à-dire une pratique de pouvoir plus ouverte, plus incluante, plus collaborative. La dimension démocratique de l'open data, c'est l'addition de la transparence, de la concertation et de la codécision.

Pour ce qui est de la dimension économique et sociale, il est exact que des start-up s'emparent des données et inventent des services innovants. La mission Etalab en connaît déjà plusieurs centaines grâce au concours Dataconnexions. Mais ce sujet a tendance à éclipser d'autres aspects de la création de valeur par l'open data : les grands groupes, eux, se gardent de dire qu'ils ont utilisé ces données pour améliorer leurs ABAC (attribute based access controls), leurs calculs d'actuariat, la distribution de leurs enseignes dans les zones de chalandise, etc. Nous avons néanmoins des retours discrets. La carte géolocalisée et horodatée de tous les accidents de la route que le ministère de l'intérieur a mis en accès public l'année dernière intéresse beaucoup de gens qui veulent améliorer les modèles de décision. Pour autant, ce n'est pas un service que l'on trouverait dans un app store pour smartphones.

En abaissant la barrière à l'entrée – puisque l'on rend gratuites des données qu'il aurait été compliqué d'obtenir ou coûteux de produire –, on autorise aussi des innovations hors marché. Nombre de très belles histoires de l'open data sont des créations de services de proximité, culturels, sociaux. Handimap, par exemple, est un navigateur qui calcule les itinéraires pour les personnes en fauteuil roulant dans deux villes de France. Deux ingénieurs l'ont réalisé en cinq mois pro bono, pour rendre service. S'ils avaient dû d'abord élaborer un cadastre en trois dimensions, cela n'aurait pas été possible. C'est l'accessibilité de la donnée qui a permis l'innovation hors marché.

On voit aussi des citoyens éclairés qui ont envie d'en avoir le coeur net au sujet des interactions médicamenteuses, des accidents de la route près de chez eux, de la pollution des rivières, etc. Donner de l'autonomie à des citoyens qui ont des décisions à prendre, y compris par le moyen du vote, c'est aussi créer de la valeur.

Au sein de l'État lui-même, nous voyons les jeux de données numériques passer d'une administration à l'autre et donner lieu à des gestes d'innovation forts. C'est le cas du dispositif de marchés publics simplifiés, qui sera déployé prochainement. Il est désormais techniquement possible qu'une entreprise réponde à un appel d'offres public sans envoyer un seul papier à l'administration. Grâce au travail de labour de l'open data, nous avons pu puiser dans le Bulletin officiel des annonces de marchés publics¸ dans la base SIRENE (système national d'identification et du répertoire des entreprises et de leurs établissements), dans les registres des tribunaux de commerce, pour vérifier nous-même l'immatriculation des sociétés, l'habilitation des gérants, etc. On ne fait donc plus peser la charge de la preuve sur la partie qui répond à l'appel d'offres.

Plus généralement, notre combat quotidien pour l'efficacité de l'État consiste à casser les « silos ». De l'avis de certains, y compris dans cette commission, c'est de propos délibéré que l'on a construit en France un État très compartimenté. Cette rigidité de l'administration aurait été une condition pour conduire un pays jugé ingérable, ingouvernable, en proie à plusieurs révolutions au XIXe siècle. Aujourd'hui, on atteint certaines limites. Le ministère chargé du logement, par exemple, doit acheter une fois par an la base de données des prix de l'immobilier pour asseoir sa politique d'aide au logement, alors que cette information existe dans plusieurs endroits dans l'État. De telles bizarreries se comptent par centaines. Ne serait-ce que pour cette raison, il y a beaucoup d'efficacité à gagner en brisant les silos.

Une autre dimension est l'open innovation : lorsqu'une administration se met à partager ses données et lorsque l'on s'organise, comme le fait data.gouv.fr, pour étudier les usages possibles et rencontrer les utilisateurs, on rencontre aussi des innovateurs, des gens qui pensent différemment, maîtrisent d'autres technologies, posent d'autres questions aux données… Cela devient une des principales motivations du partage de données : sortir de ses ornières, de ses habitudes, rencontrer d'autres communautés, devenir ainsi plus efficace.

L'open innovation s'inscrit dans un mouvement plus vaste de création d'autres formes de relations avec l'extérieur. Etalab s'occupe actuellement de la base de donnée des adresses géolocalisées, la BANO (base d'adresses nationale ouverte). Ces informations peuvent se révéler très importantes pour les SAMU, les pompiers, la police, les télécommunications, les services fiscaux. Quatre bases de ce type existent aujourd'hui dans l'État, mais aucune n'est ouverte, aucune n'est complète et aucune n'est sans erreurs. Or « déboguer » quatre bases de données qui ont leurs propres standards, leur propre histoire, leur propre architecture, peut être l'affaire de plusieurs années et de plusieurs dizaines de millions d'euros si l'on procède « à l'ancienne ». Mais il se trouve que la puissante communauté OpenStreetMap, une sorte de Wikipédia de la cartographie forte de près de 10 000 contributeurs en France – la deuxième communauté au monde, juste après l'Allemagne –, avait engagé ce travail. Etalab a décidé de l'aider à achever la tâche. Trois mois après, et pour moins de 100 000 euros d'investissement public dans des projets que nous avons développés et apportés à la communauté, nous avons déjà refait 80 % des adresses en open data, c'est-à-dire à peu près autant que les bases existantes. Nous avons conjugué toutes les informations existantes : 14 millions de ces adresses viennent du cadastre, 2 millions sont « crowdsourcées » par les citoyens, 1,4 million sont issues de politiques d'open data de différentes villes. Il s'agit là d'un bien commun qui permet aux autres de « déboguer » leurs bases de données, mais qui ouvre aussi d'autres stratégies similaires dans l'État.

On voit aussi émerger puissamment, en particulier aux États-Unis, des stratégies fondées sur la donnée qui visent non seulement à mieux allouer ses ressources, à trouver des économies intelligentes, mais aussi à mieux organiser ses process, à donner plus de pouvoir aux acteurs, etc. C'est ainsi que beaucoup de villes américaines utilisent le logiciel Predpol pour faire passer les patrouilles de police aux heures et aux endroits où la probabilité de crimes et de délits est la plus forte. Là où ce dispositif est mis en place, on constate une baisse de la criminalité de 30 %.

Dans la mesure où il rend les données accessibles et maniables, l'open data permet à l'État de s'appliquer à lui-même des stratégies qui n'étaient pas envisageables quand aucun service ne disposait des données du service voisin. Il y a dix jours a été créée la fonction d'administrateur général des données – équivalent de « chief data officer » –, confiée elle aussi à Etalab avec pour mandat d'utiliser nous-mêmes nos propres données pour améliorer les politiques publiques. C'est une façon de boucler la boucle : je crois en effet que l'on ne peut mener durablement une politique d'ouverture des données si l'on n'utilise pas soi-même les données et si l'on n'a pas un regard exercé sur leur destination, leur format, etc.

Il me semble donc que notre réflexion doit aussi porter sur la dimension stratégique de l'open data. Il y a là une modernité numérique qui emporte une transformation des pratiques de l'action publique.

Pour ce qui est du cadre juridique français, je renvoie au tableau très complet qu'en dresse le Conseil d'État.

Nous avons d'abord la Déclaration des droits de l'homme et du citoyen. Nos ancêtres ont proclamé le 26 août 1789 que « La société a le droit de demander compte à tout agent public de son administration », que « Tous les citoyens ont droit de concourir personnellement, ou par leurs représentants, » à la formation de la loi, qu'ils « ont le droit de constater, par eux-mêmes ou par leurs représentants, la nécessité de la contribution publique, de la consentir librement, d'en suivre l'emploi et d'en déterminer la quotité, l'assiette, le recouvrement et la durée. » Aujourd'hui, tout cela est possible. Les gens savent lire et écrire, ils ont un ordinateur et ils sont connectés. Il faut tenir la promesse de la Déclaration des droits de l'homme et du citoyen !

Personnellement, j'ai découvert sur le tard que la France n'a pas attendu que l'open data soit un terme à la mode dans le monde anglo-saxon. Les rapports de la Cour des comptes sont publics depuis 1850. Le Bureau de statistique générale, ancêtre de l'Institut national de la statistique et des études économiques (INSEE), remonte lui aussi au XIXe siècle. La loi CADA fonctionne depuis quarante ans. La loi de 1951 a organisé un grand service public de la statistique publique. Mes collègues de l'Open government partnership en sont toujours ébahis car la France n'a pas raconté cette histoire sur la scène internationale.

Certes, nous pouvons faire beaucoup mieux, mais nous n'avons nullement à rougir devant nos voisins. Très souvent, nos données sont de bien meilleure qualité que chez eux. Aucun pays au monde, par exemple, ne dispose d'un outil tel que le SNIIRAM (système national d'information inter-régimes de l'assurance maladie), qui rassemble toutes les données des ordonnances remboursées. Aucun système étranger n'ouvre de données aussi précises, ciblées, granulaires et sensibles.

Nous avons une grande tradition statistique et de grands services publics. Certes, il existe des poches de résistance et certains s'exaspèrent de ne pas avoir accès à certaines données. Mais aucun pays ne pourrait nous regarder de haut en faisant valoir son avance sur nous.

Vous me demandez, monsieur le président, s'il faut changer la loi. Je crois que oui. Le cadre posé par la loi CADA est celui du droit individuel d'un citoyen de saisir l'État pour se faire transmettre un document. Comme le souligne le Conseil d'État, il ne contraint pas l'État à anticiper ces requêtes en construisant des référentiels de données complets, cohérents, utiles et créateurs de valeur. Nous sommes donc dans une ambiguïté permanente : nous nous efforçons de fabriquer des infrastructures de données avec pour tout cadre juridique la menace d'un éventuel recours individuel devant la CADA. Les points de vue et les finalités ne sont pas les mêmes. Il faudra donc, selon moi, un cadre positif.

D'ailleurs, peut-on durablement parler de « biens communs informationnels » ou d'« infrastructures critiques » d'une économie naissante ? Lorsque les Américains se félicitent de leur politique d'open data¸ ils commencent par parler du réseau GPS, signifiant par là qu'un système d'informations accessible à tous fait naître une filière industrielle entière, celle des services mobiles, mais – et ils se gardent de le dire – ils en conservent la maîtrise puisqu'ils sont au coeur de la plateforme qui diffuse la donnée. L'effet GPS, nous pourrions l'obtenir en matière d'énergie et de transports ou dans certains domaines de la santé. Le compteur électrique intelligent d'EDF pourrait servir de base arrière à des milliers de services à valeur ajoutée. Peut-on penser cela à travers la réflexion qui a donné naissance à la loi CADA ? Il y a, me semble-t-il, deux dimensions. Ni les principes ni les finalités ne sont tout à fait les mêmes.

Si l'économie du futur doit reposer en partie sur de telles infrastructures, considère-t-on que seules les données mises à disposition par l'État constitueront les biens communs ? La société et le législateur – mais aussi la concertation qui s'engagera au sein du Conseil national du numérique – doivent faire porter leur réflexion sur les données essentielles qui appartiennent à tous, d'où qu'elles viennent, même si elles sont produites par des délégataires de service public ou par des entreprises privées. Leur circulation est à la fois un lien social et une condition du développement économique.

En matière de données personnelles, je considère que la France a tout à gagner à garantir une forte protection de la vie privée. Beaucoup d'entreprises se plaignent de ces garanties, certes, mais beaucoup d'autres affirment que c'est un atout puissant à l'international. Lorsqu'elles lèvent des fonds aux États-Unis, les start-up qui réussissent – Blablacar, Criteo, etc. – sont heureuses de faire valoir qu'elles sont françaises et que la CNIL considère qu'elles font du bon travail.

Cela dit, le débat sur les données et la vie privée est en train de partir en vrille car on mélange tout. Les écoutes illicites ne sont pas l'open data, pas plus que la vie privée que tout un chacun met sur Facebook ou encore les predictive analytics. La question de savoir si le partage des données publiques fait peser des menaces sur la vie privée doit reposer sur des éléments sérieux et réels. Non qu'il n'y ait aucun risque, mais les administrations connaissent et respectent très bien deux grands cadres : la loi de 1951, qui définit le secret statistique, et la loi « Informatique et libertés » de 1978. À ma connaissance, l'ouverture des données publiques n'a donné lieu à ce jour à aucun accident touchant à la vie privée. Dans aucun pays au monde on ne réquisitionne les données pour les diffuser telles quelles. Ce sont ceux qui les produisent qui en ont la maîtrise. Nous faisons pression sur eux, ils résistent : cette dialectique est une bonne chose !

Il faut néanmoins prendre au sérieux le cas de données si précises et sensibles que l'on serait incapable d'en garantir l'anonymisation irréversible. Il n'y en a pas tant que cela et on voit à peu près où. Probablement dans la santé : pour garantir l'irréversibilité de l'anonymisation du SNIIRAM, il faut assurément prendre la précaution de s'entourer de quelques mathématiciens. On sait par ailleurs faire du floutage statistique sur les accidents de la route, la distribution des revenus, l'impôt sur la fortune. L'INSEE peut faire circuler des données très précises et néanmoins floutées.

En la matière, il n'est pas interdit de faire preuve d'inventivité. Dans le cadre du travail réalisé à la demande de Mme Marisol Touraine sur l'open data en santé, nous avons d'ailleurs accepté une ouverture permettant l'accès aux données mais où celles-ci restent sur notre serveur, de telle sorte que les erreurs sont réversibles.

Bref, la protection de la vie privée est une question sérieuse mais, selon moi, moins grave que ce que l'on a dit parfois. Il existe des contrefeux, des contrepouvoirs et des sécurités.

Tout en saluant le travail de la CNIL, je crois que le cadre intellectuel de la loi de 1978 – principe de finalité et principe de proportionnalité – ne peut plus tenir dans un monde de big data. On ne peut demander aux gens, avant qu'ils ne constituent ou ne partagent une base de données, de déclarer tout ce qu'ils en tireront : c'est en contradiction avec la manière dont on innove dans le numérique.

S'agissant enfin de l'impact économique, il y a de fortes présomptions. Nous disposons de case studies mais pas encore d'études macroéconomiques qui établiraient une corrélation entre l'open data et la croissance. On oscille entre ceux qui font la somme des chiffres d'affaires des cinq cents plus grosses start-up et McKinsey qui avance le chiffre de 3 000 milliards de dollars, soit deux fois le PIB de l'Allemagne. La vérité doit se situer quelque part entre les deux…

Cependant, dans certains secteurs – information géographique, information météorologique… –, on a des preuves sérieuses que les pays ayant fait de l'open data ont une activité économique plus intense et qui croît plus vite que les autres.

Reste l'éternelle question des administrations qui s'inquiètent du coût de la démarche. Là aussi, il faudra sans doute revenir sur la distinction entre la loi CADA et les biens communs informationnels. Cette loi est très belle dans son esprit et il faut lui rester fidèle. Mais, lorsque l'on a construit progressivement le droit de réutilisation des informations contenues dans les documents administratifs, on a introduit l'idée que ces données avaient été rassemblées pour les besoins de la mission de service public et financées par elle. D'une certaine manière, elles étaient déjà amorties. Aussi ne faut-il pas les vendre. La loi concède que l'on peut éventuellement facturer le coût marginal, mais cela remonte à l'époque où l'on utilisait des dizaines de photocopieuses. Dans l'esprit, les choses étaient déjà claires : si les citoyens savent donner une deuxième vie et une deuxième valeur à ces données, tant mieux, mais ne nous mettons pas à financer le service public par la vente de produits dérivés !

Il y a là une véritable question. Peut-on ouvrir gratuitement l'information géographique, au risque de voir disparaître l'opérateur national ?

Je pense que l'on peut poser une première borne en indiquant que, en dehors de la sphère du service public administratif, il est légitime de rechercher un modèle économique pour assurer le financement durable des informations.

Mais il faut aussitôt poser une deuxième borne : essayer de vendre de la donnée brute est une manière stupide de rechercher un business model. Cela ne marche pas, cela freine l'innovation, cela empêche de révéler la valeur de la donnée, bref, cela revient à vendre son blé en herbe.

Aucun commentaire n'a encore été formulé sur cette intervention.

Inscription
ou
Connexion