DEUXIÈME PARTIE
EFFICACITÉ ET
ÉTHIQUE,
LES DEUX PILIERS DE L'ACCEPTABILITÉ
DE L'IA EN
SANTÉ
I. LA NÉCESSITÉ DE DISPOSER DE DONNÉES NOMBREUSES ET FIABLES
Le traitement des patients, de la compréhension des mécanismes biologiques propres à chaque pathologie jusqu'au choix des stratégies thérapeutiques et au suivi de leurs résultats, produit une quantité considérable de données de santé extrêmement variées, médicales et administratives.
À l'inverse de l'IA classique, symbolique, qui applique des algorithmes prédéfinis, l'IA générative a besoin d'immenses quantités de données pour apporter ses propres réponses, non prévues à l'avance. L'abondance des données de santé peut naturellement en faire un domaine privilégié du déploiement de solutions à base d'IA générative.
Encore faut-il que l'utilisation des données de santé soit possible et que celles-ci soient non seulement nombreuses, mais aussi de suffisamment bonne qualité.
A. L'ENJEU DE L'ACCÈS AUX DONNÉES SECONDAIRES DE SANTÉ
En matière d'accès aux données médicales, l'enjeu est de pouvoir utiliser les données secondaires de santé. Le rapport Marchand-Arvier publié en décembre 202334(*) distingue l'utilisation primaire des données de santé, qui renvoie à la collecte de données à l'occasion de la prise en charge des patients, tandis que l'usage secondaire désigne l'utilisation de ces données pour d'autres finalités comme la recherche et l'innovation, le pilotage ou encore l'amélioration de la qualité des soins.
La France dispose de nombreuses données primaires de santé regroupées au sein du système national des données de santé (SNDS), comprenant notamment la base de données des différents régimes d'assurance maladie (SNIIRAM), établie à partir des feuilles de soins, comprenant des données médico-administratives (mais pas de données cliniques), la base des hôpitaux (PMSI) ou encore la base des causes de décès de l'Inserm (CépiDC). Mais certaines données de santé ne figurent pas dans le SNDS : elles sont dans des entrepôts de données de santé (EDS) des établissements, dans les bases des cohortes constituées pour des recherches ou encore dans divers registres.
L'utilisation des données secondaires de santé est indispensable au développement de solutions à base d'IA. Or, comme l'indique le rapport Marchand-Arvier, elle se heurte à plusieurs freins.
· Premier frein pour les acteurs économiques comme pour les chercheurs : l'éparpillement des bases de données, leur contenu hétérogène et leur documentation insuffisante. Il n'existe pas de cartographie transverse et à jour des bases de données de santé utilisables, susceptible de renvoyer vers des descriptions homogènes de leur contenu précis et de leurs métadonnées. Des normes d'interopérabilité sont donc attendues pour rendre possible une meilleure exploitation des nombreuses données de santé collectées.
· Deuxième frein : la durée et la complexité des procédures réglementaires d'accès. Il existe certes des procédures d'accès simplifiées, sur déclaration, qui permettent de disposer de certaines données du SNDS sans avis de la Cnil (ces procédures représentent désormais 72 % des accès), en respectant des méthodes simplifiées. Depuis 2015, la Cnil a ainsi établi 13 référentiels permettant la mise en oeuvre de traitements de données de santé sur la base d'une simple déclaration de conformité. Dans les autres cas, l'accès aux données fait l'objet d'un avis du Comité éthique et scientifique pour les recherches, les études et les évaluations dans le domaine de la santé (Cesrees), rendu dans un délai de 1 mois (renouvelable une fois), avant décision de la Cnil, qui dispose de 2 mois (délai renouvelable une fois).
· À ces délais réglementaires s'ajoutent des délais d'accès contractuels et techniques. Ainsi, le rapport Marchand-Arvier note que le délai effectif de mise à disposition concrète des données du SNDS après autorisation s'élève à 10 à 12 mois et s'est allongé entre 2020 et 2022. Les startups se plaignent régulièrement des difficultés et de la longueur des négociations avec les producteurs de données. Il est souvent difficile de s'accorder sur le partage de la valeur apportée par l'utilisation des données.
Au final, on constate en France un délai moyen de 18 mois entre le lancement d'un projet de recherche et l'accès effectif aux données de santé, alors que dans d'autres pays comme les États-Unis, Israël ou Singapour les délais sont bien plus courts.
Les grandes étapes d'un projet de recherche à partir de données de santé en France
Source : Rapport Marchand-Arvier (d'après les chiffres du HDH)
Afin de faciliter l'accès aux données de santé pour des projets d'intérêt public, notamment pour la recherche et la construction d'algorithmes médicaux et lever ces différents freins, la France s'est dotée depuis la fin 2019, d'une plateforme des données de santé (PDS), appelée Health Data Hub (HDH). Le HDH est désormais le guichet unique d'accès aux données de santé et a un rôle de facilitateur pour les porteurs de projets. En quatre ans, le HDH a accompagné un peu plus de 100 projets.
Source : Health Data Hub
Lors de son audition, le HDH a insisté sur le caractère incontournable des données dans toute stratégie d'IA. Il s'agit à la fois de repérer les données accessibles (catalogue), au-delà du seul SNDS, de qualifier les bases de données et ensuite de les utiliser de manière sécurisée.
Le HDH met en oeuvre une plateforme technologique complexe (voir schéma) qui assure l'ingestion des données pseudonymisées, le stockage des bases de données, la mise à disposition de données dans des espaces d'analyse, enfin l'accès à des outils d'exploitation de données.
Source : Health Data Hub
La question sensible de l'hébergement des données de santé par le HDH
L'hébergement des données du SNDS gérées par le HDH a donné lieu à un débat autant technique que politique. Seul acteur certifié pour l'hébergement des données de santé, la société Microsoft Azure a été désignée en 2019 pour fournir ce service au HDH.
Or, les sociétés américaines étant soumises au Cloud Act ainsi qu'à diverses dispositions d'application extraterritoriale, la possibilité de voir les données de santé des patients français accessibles par les pouvoirs publics américains a fortement ému. Les protections juridiques apportées par les textes régissant les transferts de données entre Europe et États-Unis et le fait que les données resteront hébergées par Microsoft Azure sur des serveurs situés physiquement sur le territoire français n'ont pas levé toutes les craintes.
La constitution d'une solution de cloud souverain sécurisée (SecNumCloud) et surtout suffisamment performante pour héberger les données du SNDS est donc en cours, mais ne devrait pas voir le jour avant la fin 2025.
Validé par la Cnil début 2024 pour une durée de 3 ans, l'hébergement par la même société Microsoft Azure de l'entrepôt de données de santé EMC2 souhaité par l'Agence européenne du médicament (EMA) et géré lui aussi par le HDH s'est effectué à partir du même constat de l'incapacité d'une offre souveraine à offrir des services techniquement satisfaisants. Ce choix a suscité les mêmes critiques.
L'orientation politique vers un cloud souverain sécurisé ne doit pas être remise en cause, car un certain degré de maîtrise technologique est la condition pour ne pas dépendre d'acteurs hors UE.
* 34 Jérôme Marchand-Arvier, Fédérer les acteurs de l'écosystème pour libérer l'utilisation secondaire des données de santé, 1er décembre 2023 ; https://sante.gouv.fr/IMG/pdf/rapport_donnees_de_sante.pdf.