Close
photo stéphanie combes 1
logo hdh

Entretien avec Stéphanie Combes directrice du HDH

[Emmanuel Mawet] Pouvez-vous brosser rapidement votre parcours qui vous a amené à piloter le Health Data Hub ?

[Stéphanie Combes] : Diplômée de l’École polytechnique, de l’ENSAE et de la Paris School of Economics, j’ai intégré en 2010 la Direction Générale du Trésor où je me suis penchée sur les questions liées aux politiques énergétiques. J’ai ensuite coordonné une équipe chargée de la production de prévisions à court terme de l’évolution du PIB en France, avant de rejoindre en 2014 l’INSEE où j’ai été chargée de la création de l’activité Big Data, qui préfigure la création du laboratoire d’innovation de l’INSEE. Mon implication sur les sujets de santé numérique a commencé avec mon poste de à la DREES, où j’ai été recrutée pour représenter l’administrateur ministériel des données de santé. Il était alors question de développer les usages innovants du SNDS au sein de la DREES et du Ministère. Devant le constat des différents obstacles à une utilisation simple de ces données, nous avons lancé le projet de créer une plateforme des données de santé – le Health Data Hub – dont la seule mission serait de faciliter l’accès aux données de santé dans le respect des droits des personnes et de la sécurité, en accompagnant les projets de bout-en-bout. Ce projet était en ligne avec les recommandations du député Cédric Villani, dans le cadre de ses travaux sur l’intelligence artificielle, et a été retenu d’une part comme l’une des actions de la stratégie nationale pour l’Intelligence artificielle, d’autre part par le Fonds de Transformation de l’Action Publique qui a fourni un financement d’amorçage. J’ai été ensuite nommée rapporteure de la mission de préfiguration du Health Data Hub, pilotée par Marc Cuggia, Dominique Polton et Gilles Wainrib et chargée de la mise en place de la structure une fois que la Ministre, à l’époque Agnès Buzyn, ait chargé la DREES de mettre en œuvre la feuille de route ainsi proposée. 

[EM] : Avant d’aborder les questions qui font moins consensus, pouvez-vous expliquer les motivations et buts de ce projet ?

[SC] : La France est dotée de l’une des bases de données médico-administratives les plus volumineuses du monde, liées aux remboursements des actes et des soins des bénéficiaires de l’ensemble des régimes d’assurance maladie obligatoire. Cette base de gestion a longtemps été sous-exploitée. À la suite de plusieurs rapports, l’appel à une meilleure accessibilité aux données de santé a été entendu en 2016. La loi “modernisation de notre système de santé” a créé l’Institut National des Données de Santé (INDS) chargé de favoriser le dialogue entre les acteurs et de simplifier les procédures d’accès.

Le 29 mars 2018, dans la continuité des recommandations du rapport du député Cédric Villani sur l’intelligence artificielle que j’évoquais plus haut, le Président de la République annonce la création d’un hub des données de santé, structure partenariale dont l’objet est de garantir un accès simplifié aux données de santé, à travers une plateforme technologique sécurisée disposant d’outils d’analyse à l’état de l’art, le tout dans le respect des droits du citoyen.

Pendant tout l’été 2018, à la demande de la ministre des Solidarités et de la Santé, Agnès Buzyn, une mission pilotée par trois experts du domaine des données de santé est conduite qui remettra son rapport le 12 octobre. La DREES se verra alors confier la mise en œuvre de la feuille de route qui y est proposée, et 8 mois plus tard, la loi “organisation et transformation du système de santé” (OTSS) est votée. Son article 41 élargit le Système National des Données de Santé (SNDS) et crée officiellement le HDH. 

Le Health Data Hub est donc constitué en groupement d’intérêt public, dont la convention constitutive a été approuvée par l’assemblée générale du Hu et publiée par la biais d’un arrêté ministériel le 29 novembre 2019. L’Assemblée générale du Health Data Hub réunit ses 56 membres, répartis en 9 collèges : l’Etat ; les caisses d’Assurance Maladie ; les organismes d’Assurance Maladie complémentaires ; les organismes de recherche ; les établissements de santé ; les professionnels de santé ; les agences ; opérateurs et autorité publique indépendante ; les représentants des usagers du système de santé et les industriels.

 

A quoi ça sert ? A l’ère numérique, chaque acte de soins donne lieu à la création d’une donnée. Toutes ces données constituent une matière première précieuse et essentielle pour la recherche. En les regroupant et en les analysant, les chercheurs peuvent répondre à des questions concrètes pour améliorer la qualité des prises en charge et des soins, comme étudier des effets secondaires des prescriptions. Des entreprises peuvent développer de nouvelles solutions, comme des algorithmes de détection des insuffisances cardiaques. Ces données sont particulièrement nombreuses en France, ce qui peut constituer un avantage compétitif sur le plan international pour la recherche et l’innovation.

 

Jusqu’à présent, obtenir l’accès à ces données soulevait de multiples difficultés pour ceux qui souhaitaient les utiliser dans le cadre de projets pourtant d’intérêt général :

  • Les données sont dispersées entre de multiples bases, peu connues et peu compréhensibles de l’extérieur ;
  • Les procédures d’accès aux données de santé sont complexes, en raison même de la sensibilité de ces données, et obéissent à des gouvernances chaque fois différentes, parfois discrétionnaires ;
  • Les outils et les compétences nécessaires pour traiter la donnée de manière sécurisée, comme cela s’impose, sont coûteux et bien souvent inaccessibles pour des petites équipes de recherche ou des start-ups.

 

Par conséquent, certains projets, qui pourraient apporter de vrais bénéfices pour les patients, mettent plusieurs années à se lancer, voire ne démarrent tout simplement pas. Certaines start-ups françaises, qui souhaitent développer des nouvelles solutions, sont obligées de nouer des partenariats avec des acteurs étrangers pour collecter les données. Leurs innovations ne seront pas nécessairement adaptées au patient français ni même disponibles pour lui.

 

[EM] : Quels projets basés sur la Plateforme des Données de Santé, permettent d’en mesurer l’intérêt ?

[SC] : L’offre de service du HDH est complémentaire de celle des collections de données constituées (bases de données administratives, registres, cohortes, ou enquêtes) sous la responsabilité d’organisations publiques ou privées du champ de la santé.

Elle répond à deux catégories de projets :

  • Les projets visant à croiser différentes sources de données lorsque ces croisements, chaînages ou encore appariements, sont compliqués à réaliser.
  • Les projets visant à constituer d’importantes masses de données par agrégation de collections multicentriques.

Pour ces 2 types de projets, la plateforme technologique du HDH agit comme tiers de confiance pour réunir de manière sécurisée les différentes sources de données et permettre leur exploitation avec des technologies à l’état de l’art.

 

Le Health Data Hub accompagne 72 projets constitués en partie des projets pilotes sélectionnés par appels à projets et en partie des projets relatifs à l’épidémie.

 

Sur les 72 projets accompagnés par le HDH :

  • 62 projets partenaires
  • Plus d’un tiers sont accompagnés avec des industriels,
  • 12 sont relatifs à l’épidémie.

 

Sur l’ensemble des projets, à date, 34 ont eu un avis favorable du CESREES et 31 ont été ou sont sur le point d’obtenir un retour de la CNIL. 35 projets ont été autorisés par la CNIL sur 45 projets éligibles. Les projets d’analyse de données peuvent durer plusieurs années avant de produire des résultats, néanmoins à date 3 projets sont terminés et 1 pourrait prochainement l’être.

 

Sur les 72 projets, 57 demandent plus d’une source de données, 9 demandent jusqu’à trois sources, 34 demandent un croisement avec la base principale du SNDS. Sur les 34, 11 requièrent un appariement probabiliste. Sur les 72 projets, 57 utilisent la plateforme du HDH et 30 seront arrivés sur celle-ci d’ici la fin de l’année 2022.

 

Sur les 72 projets, 15 demandent une préparation des données au niveau d’un entrepôt de données de santé au préalable du transfert dans la plateforme d’analyse du Health Data Hub : 7 bénéficient d’un appui du HDH pour le faire, 6 ont terminé cette phase de préparation des données ou sont sur le point de la terminer.

 

S’il est généralement trop tôt pour mettre à l’actif de ces projets des avancées exploitables sur le plan médical, des jalons importants ont été franchis qui leur permettent de l’envisager.

 

  • Exploitation des données de passages aux urgences pour l’analyse du recours aux soins et le suivi de la crise sanitaire du Covid-19 (DREES) : ce projet visait à analyser à des fins d’études sur le recours aux soins (en particulier des patients atteints d’autres pathologies que le Covid) durant la crise sanitaire.

 

  • GLUCO (EMA, IQVIA, PeLyon) : ce projet à l’échelle européenne commandé par l’EMA est à ce jour terminé et les résultats sont en cours de publication dans un article scientifique. Il étudie l’utilisation des glucocorticoïdes par voie systémique dans le traitement de la COVID-19 et les risques d’événements indésirables associés. Le HDH a réalisé la transformation au format OMOP-CDM de l’extraction de la CNAM réalisée sur 300 000 patients ayant un diagnostic hospitalier de COVID-19. Avant transfert, le HDH a réalisé des tests de qualité des données ainsi transformées. Cette étude constitue le premier projet conduit sur les données SNDS transformées par le HDH vers un format international et interopérable. Un article est en cours de finalisation. Le HDH est intervenu dans différents congrès tels que Medical Informatics Europe 2022, OHDSI Europe 2022 où un poster sur les alignements a été présenté. Le HDH prévoit également d’ouvrir les scripts permettant de passer du SNDS natif vers le SNDS omop en open source d’ici peu.

 

  • BACTHUB (AP-HP et l’INSERM) : ce projet permet de comprendre le lien entre la prise d’antibiotiques et le développement de bactéries résistantes aux antibiotiques. Le HDH a consolidé les données de 50 000 patients de 37 hôpitaux de l’AP-HP sur une période de 5 ans. Un article universitaire va être soumis très prochainement auprès d’Eurosurveillance pour présenter la richesse à date de la base issue de bases hospitalières de l’AP-HP. Les données ont été préparées et consolidées avec l’appui de 2 data engineers mis à disposition par le HDH pendant plus de 1 an.

 

  • HYDRO (Implicity) : le HDH a contribué au transfert de données de 27 000 pacemakers vers la plateforme d’Implicity sur les insuffisances cardiaques. Il a ainsi contribué à l’amélioration de 50 % à 80 % du taux d’appariement avec le SNDS. Au final, les données de plus de 1000 tables du SNDS ont été extraites et seront analysées conjointement avec les données provenant des implants cardiaques uniques regroupant des données de biologie, microbiologie, prescription de médicaments. C’est au total plus de 12 millions de lignes de données qui ont fait l’objet d’une mise en qualité automatisée. A l’heure actuelle, le développement de l’algorithme est en cours et les premiers résultats ne font pas encore l’objet d’une communication mais semblent prometteurs.

 

  • ORDEI (ANSM) : il s’agit d’un outil qui transmet les effets indésirables de la prise de médicaments. Le HDH a mis à disposition une première maquette de l’outil grâce aux données disponibles en open data et travaille à la substitution par les données de l’Assurance Maladie. Une première maquette de l’outil a été réalisée en s’appuyant sur des données de consommation de médicaments disponibles en open data et des travaux sont en cours pour les substituer par les données du SNDS. L’outil aura vocation à être mis en ligne.

 

  • NHANCE (AP-HP) : cet outil permet d’améliorer l’interprétation des images échographiques des lésions d’organes ventrales. L’équipe dédiée du Health Data Hub a extrait 80 000 images échographiques anonymes alors qu’il aurait fallu 2 ans de travail pour réaliser l’extraction manuellement. L’équipe projet a développé des outils permettant le prétraitement des données pour les études en échographie afin de permettre à la fois la parfaite dé-identification des images mais aussi l’uniformisation du contenu des images au sein de différentes bases de données. Ce travail a fait l’objet d’une publication à la conférence IEEE International Symposium on Biomedical Imaging en 2021. (Source : https://gitlab.inria.fr/hdadoun/pre-process-US) et l’objet d’un article dans le cadre de la revue Radiological Society of North America le 2 mars 2022 disponible sur le lien suivant. Un article scientifique remercie également le HDH sur le lien suivant.

 

  • INNERVE (Quantmetry) : l’objet de l’étude est de développer un logiciel s’intégrant directement au scanner dont l’objet vise à affiner le diagnostic des neuropathies des petites fibres. Il s’agit de petites cellules nerveuses qui permettent de ressentir la douleur et la température : les neuropathies des petites fibres peuvent notamment entraîner des douleurs et une perte de sensibilité. Des algorithmes de détection des éléments d’intérêt sur les images ont été développés et testés avec une précision en moyenne de 70% : détection de membrane, détection de fibre, détection d’intersection fibre-membrane. La variance intra- et inter-opérateurs permet de confirmer que le modèle développé peut suppléer le travail d’analyse réalisé par le médecin, et ce de manière automatique. Une publication est en cours de rédaction pour la revue “AI in medicine”.

 

  • TARPON (Université de Bordeaux) : le projet vise à développer une intelligence artificielle (IA) permettant d’analyser automatiquement le texte rédigé par les professionnels de santé contenu dans les dossiers médicaux de patients pris en charge dans les services d’urgences. Pour la première fois, les informations sur les évènements traumatiques contenus dans les dossiers patients seront croisées avec les données des patients sur leurs consommations de médicaments avant traumatisme. Une première phase du projet consistant à développer la méthodologie a permis de développer un algorithme d’identification des patients qui sont pris en charge pour traumatisme aux urgences. Deux articles scientifiques sont disponibles sur ce lien et ce lien, soumis pour publications dans une revue scientifique prochainement.

 

  • HugoShare (Réseau Hugo) étudie les interactions médicamenteuses susceptibles de provoquer des effets indésirables, à partir des prescriptions médicamenteuses hospitalières. Une partie de l’appui financier du HDH a permis d’appuyer la phase de préparation des données, maintenant finalisée et plus particulièrement la mise en œuvre des flux de données depuis les EDS locaux, l’interopérabilité des EDS HUGO, enfin, la mise en qualité sémantique des données de biologie, les données sont actuellement en cours d’ingestion dans la plateforme du HDH et l’étude va pouvoir commencer dans les prochains jours.

 

  • Deep-Sarc (Centre Léon Bérard) est une étude menée sur des “données de vie réelle” identifiant les traitements les plus adaptés pour des patients porteurs de sarcomes dont près de la moitié en France ne répondent pas aux traitements standards. Cette étude permettra de croiser sur 7 ans (2010-2017) des données de patients issues du réseau de référence clinique des sarcomes en France et du SNDS. L’appui financier du HDH a permis, à ce stade, d’appuyer le projet dans la phase de préparation des données Netsarc et de mise en place du canal d’ingestion, dans l’appariement des données Netsarc avec le SNDS et dans l’analyse des données. L’étude est en cours sur la plateforme.

 

  • Deep Piste (CRCDC Occitanie) croise les données issues de mammographies collectées entre 2004 et 2019 au sein du CRCDC Occitanie avec les données SNDS correspondantes afin d’améliorer les programmes de dépistage de cancer du sein. Ces bases de données sont actuellement transférées sur la plateforme du HDH afin que l’équipe projet puisse lancer au cours des prochaines semaines l’étude. Des chercheurs annotent ensuite les mammographies sur la plateforme du HDH grâce à l’outil Cytomine, intégré à l’offre technologique de la plateforme du HDH, afin de faire apprendre l’algorithme de reconnaissance des cancers et diminuer le taux de cancers de l’intervalle. Un gitlab est disponible sur le lien suivant : https://github.com/Epiconcept-Paris/deep.piste

 

  • Rexetris (CHU de Limoges, ABM) mesure l’impact à long terme de l’exposition aux médicaments immunosuppresseurs des patients greffés rénaux. L’appui financier du HDH a permis au CHU de Limoges de recruter un ingénieur qui sera prochainement mobilisé sur la plateforme technologique du HDH pour développer des algorithmes d’interprétation des données et développer des modèles de risque de perte de fonction du greffon (tenant compte ou non de l’exposition aux médicaments immunosuppresseurs). L’appariement entre les bases de données est en cours et certains éléments seront mis en opensource pour faciliter la réutilisation.

 

[EM] : L’un des plus gros reproches qui a été fait à la Plateforme des Données de Santé, c’est d’avoir choisi le cloud Microsoft. Comprenez-vous les réactions ? Quelles sont les réponses que vous êtes en mesure d’apporter ?

[SC] : En parallèle de la mission de préfiguration, les fonctionnalités cibles de la plateforme technologique ont été définies dans le cadre d’un groupe de travail technique associant des représentants de l’ensemble de l’écosystème (hôpitaux, startups, chercheurs, CNAM) et ont été communiquées publiquement sur le site internet de la Direction de la recherche des études de l’évaluation et des statistiques (DREES) dès le début de l’année 2019.

La plateforme technologique du Health Data Hub requiert :

  • une infrastructure fournissant les capacités de stockage et de calcul de manière élastique pour des traitements avancés en data science répondant au besoin de montée en charge progressive inhérente à l’offre du Health Data Hub ;
  • un socle de services intégrés fournissant les fonctionnalités nécessaires à la plateforme technologique telles que le traitement et la gouvernance des données, la visualisation des résultats, la gestion des identités, la traçabilité, le maintien en condition de sécurité, la gestion des espaces projets, l’automatisation du déploiement des ressources selon les principes d’”infrastructure programmable” ou “infrastructure as code”, etc.

La plateforme technologique est construite pour fournir un accès à des données sensibles dans un cadre hautement sécurisé, sous la pression d’un écosystème demandeur de cet accès. Pour satisfaire à cette exigence, il est indispensable que le prestataire d’hébergement propose des services intégrés permettant de gérer de bout en bout la sécurisation des traitements et des opérations réalisés sur la plateforme technologique tout en réduisant les délais et coûts d’intégration. A titre d’exemple, il est indispensable que les composants techniques de la plateforme génèrent des traces, ou “logs”, qui soient recevables par un service centralisé de stockage et de traitement ; ou encore, il est indispensable que le service de gestion des identités puisse être intégré à l’ensemble des composants techniques de la plateforme pour vérifier les droits d’accès des personnes et des machines à ces différents composants. La plupart des prestataires d’hébergement français étudiés proposaient une offre majoritairement orientée “infrastructure” nécessitant une charge importante d’intégration des services indispensables à la plateforme, fragilisant par construction la gestion de la sécurité.

Par ailleurs, la sécurité physique des centres de données constitue également un critère primordial. Lors du choix de la solution d’hébergement, en février 2019, seuls un petit nombre d’acteurs détenaient la certification “Hébergeur de données de santé” qui s’obtient par un audit de conformité technique réalisé par un organisme de certification accrédité tel que défini par l’article R.1111-10 du code de la santé publique. A ce titre, il était également indispensable que les ressources nécessaires à des traitements en intelligence artificielle, telles que des cartes graphiques, ou “Graphics Processing Units (GPU)”, soient comprises dans une offre d’hébergement certifiée HDS.  

Plus d’une dizaine d’acteurs industriels de référence et d’acteurs de la recherche ont été consultés, d’abord pendant la mission de préfiguration, puis en fin d’année 2018 (Thalès, Atos, Santeos, OVH, Docaposte, Orange, Teralab, Institut Pasteur, CASD, Genci, Outscale, Saagie, Amazon, Google, Microsoft). Les options envisageables ont été expertisées par l’équipe alors en charge de la mise en place du projet au ministère des Solidarités et de la santé au regard de leur couverture des besoins fonctionnels et de sécurité, et de l’existence d’un véhicule contractuel adéquat permettant d’engager la réalisation dans les délais imposés.

Après analyse des acteurs français pressentis pour développer la plateforme, il est apparu que la solution Cloud Azure de Microsoft était la seule à présenter de manière intégrée les fonctionnalités et certifications nécessaires.

Le choix de la solution Microsoft Azure pour l’hébergement des données de la plateforme technologique du Health Data Hub est réversible. L’objectif de réversibilité a été par ailleurs inscrit dans la première feuille de route stratégique triennale du Health Data Hub, votée en janvier 2020 à la création du HDH.

Techniquement, la plateforme technologique est développée selon une logique d’”infrastructure programmable”, ou “Infrastructure as Code (IaC)” à l’aide de langages indépendants de la solution d’hébergement retenue, permettant de la redéployer aisément sur une autre solution du même niveau de maturité.

 

[EM] : Que répondez-vous sur les aspects juridiques liés aux lois extraterritoriales auxquelles sont soumises les acteurs américains ?

[SC] : L’invalidation de l’accord Privacy Shield par la Cour de Justice de l’Union Européenne le 16 juillet 2020 (arrêt Schrems II) a provoqué des incertitudes sur l’encadrement des transferts de données personnelles entre l’Union européenne et les Etats-Unis et, plus généralement, le recours à des prestataires américains pour traiter des données personnelles de citoyens européens.

L’arrêté du 23 mars 2020 permettant au Health Data Hub de réunir et de mettre à disposition des données relatives à l’épidémie pour appuyer la gestion de la crise sanitaire, a été remis en cause pour cette raison par un groupement d’acteurs le 28 septembre 2020. Le Conseil d’Etat a rendu une ordonnance le 13 octobre 2020 dans laquelle il reconnaît que les mesures techniques et contractuelles mises en œuvre par le Health Data Hub et Microsoft permettent d’empêcher tout transfert de données personnelles de santé en dehors de l’Union européenne. Les seules données dont le transfert présente une utilité sont des données de télémétrie, pour contrôler le bon fonctionnement des services offerts par Microsoft, ainsi que des données de facturation.

Au niveau juridique, le Health Data Hub et Microsoft ont fortement renforcé leur cadre contractuel dans le temps avec la mise en place de mesures juridiques et techniques additionnelles. Plusieurs avenants ont successivement été signés entre le Health Data Hub et Microsoft pour mieux encadrer les modalités de la sous-traitance.

En parallèle, le Health Data Hub a mené avec un cabinet d’avocat une instruction juridique précise relative aux risques extraterritoriaux applicables au HDH et conclut que la Décision Schrems II ne devrait pas s’appliquer au contexte du HDH. La Décision Schrems II s’applique initialement à un cas de transfert de données entre une société UE, Facebook Irlande, et une société US, Facebook US alors que dans le cas du HDH, les données de santé sont hébergées en France et ne peuvent être transférées par HDH, conformément à l’interdiction prévue par le contrat avec Microsoft et l’arrêté ministériel du 9 octobre 2020. Plus précisément, cette analyse montre que les conditions d’application des lois de surveillance américaines ne sont pas vérifiées dans le contexte du traitement effectué par HDH. Cette note a été rendue publique.

[EM] : Il est à rappeler qu’un cabinet de conseil pour le compte du gouvernement Hollandais a effectué un audit législatif sur ces aspects juridiques et leurs conclusions sont que les initiatives comme le Cloud de Confiance sont sous le coup des lois extraterritoriales. Quel est votre sentiment en tant que citoyenne et non pas comme directrice sur ce sujet sensible de nos données ?

[SC] : En tant que citoyenne, mon sentiment est que le débat de société qui sous-tend les questions d’hébergement n’est pas adressé. Aujourd’hui, nous devons répondre à la question « devons-nous attendre une solution parfaite pour avancer sur tel et tel sujet ?”. La réponse n’est pas simple mais la question n’est pas véritablement posée en ces termes non plus. Il est légitime de penser que nous devrions attendre d’avoir une solution pleinement souveraine pour avancer sur le terrain de la recherche sur données de santé, mais la position inverse est également défendable, surtout lorsque la compétition internationale est féroce et que nous nous exposons à un débat similaire dans quelques années non plus au sujet du cloud mais au sujet des applications Saas et notamment dans le domaine de la santé. Que dirons-nous aux citoyens si dans 5 ans, nos smartphones nous mettent à disposition pour l’essentiel des applications américaines ou chinoises, à propos desquelles nous n’aurons que peu d’informations sur la manière dont elles auront été développées ?

[EM] : Pensez-vous qu’il serait possible de changer de fournisseur cloud ? Il me semble que c’était un des engagements du gouvernement français devant la bronca menée contre l’utilisation de Microsoft ? L’horizon donné à l’époque était 2020, où en est-on ?

[SC] : Le choix de la solution Microsoft Azure pour l’hébergement des données de la plateforme technologique du Health Data Hub est réversible. L’objectif de réversibilité est par ailleurs inscrit dans les feuilles de route stratégiques triennales 2019-2022 et 2023-2025 du Health Data Hub. Cette nouvelle feuille de route, votée le 9 juin dernier par le Conseil d’administration du HDH, fixe par ailleurs la mise en œuvre de la migration de la plateforme vers un opérateur “cloud de confiance” pour 2025. Cette migration dépend néanmoins des exigences que devront vérifier un tel opérateur d’une part et de l’offre existante d’autre part. Nous poursuivons en continu notre veille du marché.

[EM] : Vous affirmez que le choix de Microsoft s’est bien fait à travers un appel d’offre. Quel est votre position par rapport à l’action en cours d’Anticor ?

[SC] : Selon les articles L. 2113-2, L. 2113-3, et L. 2113-4 du Code de la commande publique, la DREES, tout comme le Health Data Hub, peut de manière légitime et légale consommer des prestations à travers des centrales d’achat, telles que l’UGAP. En consommant des prestations au travers de centrales d’achat, une administration ne procède pas elle-même à la mise en concurrence mais fait affaire avec le titulaire retenu suite à une procédure de marché organisée par la centrale et au cours de laquelle la mise en concurrence est bien réalisée. Ces approches, qui confèrent plus d’agilité aux structures publiques, ont d’ailleurs été encouragées : l’État a ainsi mis en place, via la centrale d’achat public UGAP, un support contractuel d’achat regroupant des offres commerciales « sur étagère » de fournisseurs de cloud spécialisés, en conformité avec le niveau dit « cercle 3 » dans la circulaire de 2018.

[EM] : De même l’appel d’offre concernant l’infogérance SOC pour le Health Data Hub provoque une nouvelle polémique, est-elle justifiée et orientez-vous votre appel d’offre vers l’utilisation SIEM de Splunk un acteur américain ?

[SC] : Le Health Data Hub a vocation à rassembler et mettre à disposition les données du SNDS qui correspondent, depuis la loi OTSS à toutes les données associées à un remboursement de la sécurité sociale. Les exigences de sécurité relatives à la gestion de ces données sont donc très élevées et sont portées par un arrêté du 22 mars 2017 dit “référentiel de sécurité du SNDS”.

Le référentiel prévoit notamment la capacité de tracer toutes les activités réalisées sur la plateforme qu’elles soient à l’origine des utilisateurs ou des opérateurs de celle-ci. Dans ce contexte, le Health Data Hub souhaite s’équiper d’un Centre Opérationnel de Sécurité (COS) ou Security Operation Center (SOC) permettant d’industrialiser la collecte des événements issus de ses composants et de pouvoir détecter, à partir de ces événements, des comportements anormaux, interdits ou à risque.

Afin de gérer les évènements, le SIEM ou “Security Information & Event Management” est un outil du SOC permettant la collecte et le regroupement des données de log générées au niveau de l’ensemble de l’infrastructure de la plateforme, des espaces projets. Ainsi, tous les dispositifs liés aux réseaux, à la sécurité, à l’accès à la plateforme, aux accès opérateurs, aux accès utilisateurs génèrent des traces. Celles-ci sont identifiées, catégorisées et analysées pour mettre en évidence les chemins d’attaques et générer des alertes ou engager des traitements afin de circonscrire les incidents et événements.

Pour construire ce futur SOC, la stratégie choisie par le Health Data Hub est de capitaliser sur l’existant – à savoir l’outil Splunk qui a été intégré dans la plateforme technologique dans le but de réduire l’adhérence à Microsoft – en construisant son évolution d’un point de vue organisationnel, fonctionnel et technique, afin d’être en mesure de détecter les comportements déviants et ainsi être le plus proactifs possible pour limiter la survenance des incidents ou limiter les impacts en les traitant au plus tôt.

Le Health Data Hub a donc lancé un marché public le 10 juin dernier dont l’objet est de se faire accompagner dans la définition des règles de détection, la gestion et la réponse à incident, l’investigation forensic (recherche de preuves numériques), la veille sécurité, ainsi qu’une assistance à la sensibilisation des collaborateurs. La consultation émise par le HDH se déroule en deux phases. La première, à savoir la phase de candidature, se matérialise par le règlement d’appel public à candidatures disponible en libre accès sur le lien suivant. La deuxième phase est relative à la remise des offres. Le marché est ouvert à tous les candidats sur la première phase mais leur connaissance en matière d’intégration de Splunk est prise en compte dans les critères d’analyse des candidatures.

L’outil Splunk a été désigné parmi les meilleures solutions SIEM du marché par l’entreprise GARTNER en 2021. Les deux solutions les plus couramment utilisées sont Splunk ou Elastic Search, aucune de ces deux solutions n’est française et aucune solution française n’est considérée aujourd’hui comme une référence en la matière.

A noter que le Health Data Hub est sensible à l’utilisation de solutions françaises toutes les fois où il le peut mais que dans le domaine de la cybersécurité, les meilleures solutions du marché restent souvent étrangères même si ce n’est pas systématique.

[EM] : Quelles raisons ont motivé le retrait de demande d’autorisation à la CNIL par la Plateforme des Données de Santé pour l’hébergement du SNDS (Système National des Données de Santé) ?

[SC] : En accord avec le ministère des Solidarités et de la Santé, le HDH a retiré temporairement sa demande d’autorisation pour héberger la base principale du SNDS et les bases du catalogue dans la plateforme technologique dans l’attente de la finalisation de l’instruction par la CNIL de l’arrêté définissant la composition de ces bases.

Dans l’attente, le Health Data Hub met à disposition les données aux projets autorisés, un par un, cumulant donc les délais réglementaires d’obtention des autorisations pour les projets avec les délais de contractualisation et de mise à disposition puisque pour chaque projet, une extraction doit être produite au niveau du producteur de données, puis transmise au HDH. Le HDH dispose d’une équipe qui permettra, en cible, de mutualiser ces efforts.

 

[EM] : Quelles sont les prochaines étapes majeures de votre projet ?

[SC] : Pour construire sa nouvelle feuille de route pluriannuelle 2023-2025, le Health Data Hub a mené une consultation de 26 acteurs de l’écosystème et 4 groupes de travail, pour 46 organismes rencontrés. Présentée ensuite en conseil d’administration et en assemblée générale, elle a été approuvée à l’unanimité le 9 juin dernier. La nouvelle feuille de route pluriannuelle du HDH se compose de quatre grands axes : la poursuite des actions pour réduire les délais d’accès aux données de santé et multiplier les projets impactants ; la mise à disposition des données de la base principale, l’enrichir et faciliter sa réutilisation ; le renforcement des connexions du HDH aux acteurs de l’écosystème ; l’écoute de la société civile et la co-construction d’une culture de la donnée de santé.

Ainsi, pour 2025, le Health Data Hub se donne pour objectif : d’arriver à un fonds de roulement de 200 projets utilisant la plateforme par an (à partir de 2024) ; de réduire à 7 mois le délai moyen d’accès aux données pour les projets nécessitant un appariement entre plusieurs sources de données ; de nouer plus de 40 nouveaux partenariats avec des infrastructures locales ou mutualisées au niveau national et européen ; et de développer nos échanges avec la société civile.

[EM] : Quels seraient les éléments supplémentaires que vous souhaiteriez partager aux détracteurs du projet ?

[SC] : Les données de santé sont appelées à jouer un rôle majeur dans la médecine de demain, c’est pour cela que la Commission européenne en a fait une de ses priorités en termes de santé. Par les opportunités qu’elles représentent pour la recherche médicale, pour l’amélioration des essais cliniques ou une meilleure compréhension des parcours de soins, les données de santé vont se rendre bientôt indispensables. Il est nécessaire d’adresser tous les débats en prenant en considération le bénéficiaire de la recherche et ses attentes en matière de santé.

[EM] : Nous arrivons à la fin de cet entretien je vous remercie pour votre disponibilité et la qualité de vos réponses. Quel serait votre mot de conclusion ?

[SC] : Que le HDH avance – malgré parfois un vent de face ! Le Health Data Hub est une belle aventure partenariale, portée par des acteurs divers – de l’industriel à l’association de patients en passant par l’Etat – et qui n’ont, pour certains, peu ou jamais travaillé ensemble. Aujourd’hui, ces partenaires délivrent des premiers résultats concrets et construisent ensemble de nouveaux jalons qui marqueront à terme nos usages de la donnée de santé. 

 

scroll to top