En 1996.
À partir de 2002, je me suis éloigné du PMSI jusqu'en 2009, année de mon retour à la direction de la recherche, des études, de l'évaluation et des statistiques (DREES). J'ai alors constaté que le résumé de sortie anonymisé avait été extraordinairement enrichi et contenait de très nombreuses informations supplémentaires mais, par ailleurs, qu'aucune disposition n'avait été prise pour éviter les risques de ré-identification. Aussi ai-je conduit, en 2010, de nouveaux travaux, cette fois sur les données collectées en 2008, et j'ai démontré que si l'on connaît quelqu'un – j'entends par cela que si l'on connaît son âge, son sexe, le code postal de son lieu de résidence et la date de son entrée dans un établissement donné, ce qui est le cas d'un employeur, par exemple – on a 89 % de chances de le retrouver dans la base nationale, pourtant considérée comme anonyme ; la proportion passe à 100 % si la personne concernée a été hospitalisée au moins deux fois dans l'année. En effet, les combinaisons de données de la base nationale sont uniques si l'on dispose des informations que j'ai citées et quand on sait si le patient est sorti de l'établissement vivant ou mort.
J'avais mis en évidence, en 1998, que le mode de sortie « décès » est un élément extrêmement discriminant ; aussi la CNIL avait-elle demandé que cette information soit supprimée des fichiers. Malgré cela, les éléments contenus dans le résumé de sortie anonymisé sont restés tout aussi ciblants. D'ailleurs, ayant renouvelé l'étude en 2015 sur les données collectées en 2013, je suis parvenu à des conclusions identiques : si on les connaît, neuf patients sur dix peuvent être ré-identifiés à coup sûr, et tous peuvent l'être s'ils ont été hospitalisés au moins deux fois dans l'année. De plus, le programme est un chaînage longitudinal et transversal, géographique et chronologique ; il résulte de ces caractéristiques que, quelle que soit la date de son hospitalisation depuis 2006 et quels que soient le secteur et l'établissement dans lequel le patient a été hospitalisé, on peut retrouver tous ces éléments si l'on en a trouvé un seul.
J'ai appelé l'attention des pouvoirs publics à ce sujet en 2011, car je tiens à ce que la base de données puisse continuer d'être utilisée dans de bonnes conditions selon les finalités pour lesquelles elle a été créée, et aussi que les chercheurs puissent continuer à travailler sur ces données. Or chacun comprend que si une fuite se produisait qui permettait la divulgation d'éléments de santé d'une célébrité ou, pire encore peut-être, d'un citoyen quelconque qui aurait été identifié à son insu par son employeur ou par son assureur, et que cette intrusion était révélée, le grand public remettrait en cause le principe même de la base de données.