L’ouverture des données de Roche

Par Jean-Frédéric Petit-Nivard

[Livre blanc | Partie III, Retour d’expérience 2]

E n tant qu’initiateur du projet Epidemium, une initiative éminemment tournée vers l’open data, il nous a semblé essentiel d’être pionnier et d’ouvrir nos données pour le bénéfice de la science. Roche France est fier d’être le premier laboratoire pharmaceutique à l’avoir fait en créant Roche Open Database, une base de données ouverte mise à disposition de la recherche sur la plateforme open data du programme Epidemium.

Nous vous proposons de découvrir notre cheminement et espérons que ce témoignage pourra vous être utile.

L’origine du projet part d’une conviction forte partagée : l’open data est un accélérateur formidable pour la science et plus spécifiquement pour l’épidémiologie du cancer en rendant possible des avancées concrètes sur le cancer pour mieux soigner les patients demain. Avec l’ouverture de nos données dans le cadre du projet Epidemium, notre ambition est de créer un précédent qui fera école en France pour le bénéfice des patients.

Pour réussir Roche Open Database, il nous a fallu constituer une équipe interne regroupant les compétences clés et les expertises d’ordre médical, juridique, réglementaire et analytique. Notre correspondant informatique et liberté a joué un rôle déterminant dans la conduite du projet en maintenant un lien régulier avec la Commission Nationale de l’Informatique et des Libertés (CNIL) dont l’accompagnement et le conseil ont été décisifs pour la réussite de l’initiative.

Avant même de lancer le projet, nous avons d’abord cherché à obtenir une autorisation de la maison mère pour ouvrir nos données Roche France. Le retour a été rapide et positif. Un soulagement car Roche Open Database ne s’inscrit pas dans les modalités prévues par Roche pour le partage des données de santé [Roche partage déjà des données cliniques agrégées avec le grand public via Clinical Trials, un service de l’Institut National de la Santé Americain, et des données patients avec les entités de Recherche via Clinical Study Data Request].

L’autorisation obtenue, nous avons pu nous mettre au travail. Schématiquement, le projet peut se scinder en deux grandes parties qui se succèdent : l’une est juridique et l’autre technique.

Barbara Govin - CC BY NC ND

Aspects juridiques

Pour créer Roche Open Database, la première étape a consisté à bien définir le cadre juridique dans lequel le projet allait s’inscrire.
Ce cadre fait appel à deux notions fondamentales que sont la définition d’un traitement au sens de la CNIL et le consentement patient. La loi définit des règles très claires concernant l’usage des données de santé afin de préserver les intérêts des patients. « Toute opération […] de collecte, enregistrement, organisation, conservation, modification, extraction, consultation, communication, rapprochement, interconnexion, verrouillage, effacement et destruction » est considérée comme un traitement par la CNIL.

Pour obtenir la base de données la plus complète possible, notre idée de départ était de regrouper les données de plusieurs études cliniques et de les anonymiser. Or, ce regroupement ainsi que l’opération d’anonymisation des données ainsi regroupées correspondent à un « traitement » au sens de la Loi Informatique et Libertés. Nous avons donc fait une demande d’autorisation auprès de la Commission Nationale de l’Informatique et des Libertés (CNIL).

Plusieurs éléments devaient y figurer, notamment la finalité du projet, la modalité d’information des patients, les données ciblées, et une évaluation de l’anonymisation sur les critères définis par le G29 [Groupe de Travail Article 29 sur la Protection des Données des pays membres de l’Union européenne] (individualisation, corrélation, inférence).

Pour mieux comprendre ces termes, voici une définition succincte donnée par la CNIL :

  • l’individualisation : c’est la possibilité d’isoler un individu ;
  • la corrélation : c’est la possibilité de relier entre eux des ensembles de données distincts concernant un même individu ;
  • l’inférence : c’est la possibilité de déduire de l’information sur un individu.

La demande d’autorisation doit aussi justifier l’article de loi auquel elle fait référence.

Après étude des différents articles, il a semblé que l’article 8 offrait les possibilités les plus adaptées. Nous avons identifié deux pistes possibles : l’anonymisation à « bref délai » et la demande d’anonymisation justifiée par l’intérêt public. Après avoir sollicité une expertise externe, nous avons soumis notre demande de traitement sur la base d’une anonymisation dite à « bref délai ». Ces techniques d’anonymisation s’appliquant davantage à des transactions financières, la CNIL a refusé notre première demande.

Sur sa recommandation, nous avons soumis une nouvelle demande de traitement justifiée par l’intérêt public qui a reçu un feu vert en février 2016. L’autorisation de la CNIL obtenue, nous avons pu lancer la construction de Roche Open DataBase.

Aspects techniques

La construction de la base s’est faite en quatre grandes étapes :

  1. Choix des données
  2. Transformation et regroupement des données
  3. Anonymisation
  4. Validation

1. Choix des données

Nous nous sommes concentrés sur l’ensemble des études non interventionnelles finalisées, et réalisées en France depuis 1999 en oncologie. Nous avons ensuite isolé les données d’inclusion [données patients collectées au début d’une étude clinique qui peuvent être, par exemple, démographiques, physiologiques, … (âge, sexe, taille, poids, …)] de ces études ayant un intérêt pour une recherche épidémiologique sur le cancer.

Après analyse, nous avons retenu douze études représentant environ 8 000 patients.

2. Transformation et regroupement des données

Pour constituer une base regroupant les données de ces douze études, nous avons été confrontés à deux défis : obtenir une structure de base et une nomenclature identiques, et conserver les spécificités des différentes pathologies.

Pour obtenir une structure de base et une nomenclature identiques entre toutes nos études, nous nous sommes appuyés sur les standards définis par le Clinical Data Interchange Standards Consortium (CDISC) (Souza, Kush & Evans, 2007.) qui est la référence pour le stockage de données dans les études cliniques. Ce standard requis pour une soumission à la Food and Drug Administration (FDA) [Agence américaine des produits alimentaires et médicamenteux] aux Etats-Unis facilite le recoupement et l’exploitation des données cliniques. Cela contribue ainsi à améliorer l’efficience de la recherche clinique.

L’autre défi auquel nous avons été confrontés a été d’intégrer toutes les données dans une structure de base commune tout en conservant les spécificités de chaque pathologie. Dans Roche Open Database, cinq pathologies étaient représentées, à savoir le cancer colorectal, le lymphome folliculaire, les maladies néoplasiques, le cancer du poumon, et le cancer du sein.

De plus, les données collectées dépendent de la finalité de chaque étude, et dans une logique d’éthique et d’efficience, seules les données patients strictement nécessaires à sa finalité sont collectées. Or, il est apparu lors de la constitution de la base que, hormis quelques données standards comme celles ayant trait à la démographie, la plupart des variables étaient spécifiques à chaque étude. Par conséquent, et malgré le regroupement des bases, certaines de ces variables n’étaient renseignées que pour des effectifs de patients relativement faibles.

3. Anonymisation

Après analyse, nous avons identifié deux façons d’anonymiser nos données : l’une conserve la granularité de la base (1 ligne dans la base correspond à 1 patient) en appliquant des techniques de masquage connues alors que la seconde, l’agrégation, regroupe plusieurs données pour former des agrégats
(1 ligne dans la base correspond à plusieurs patients).

La première option permet de préserver une plus grande richesse de la donnée. C’est donc sur cette voie que nous nous sommes naturellement engagés au départ.

Pour anonymiser une base de données, il faut d’abord faire disparaître les identifiants directs et ensuite masquer les identifiants indirects.
Voici une définition rapide pour mieux comprendre ces termes :

Les identifiants directs sont les données qui permettent de ré-identifier un individu directement, par exemple le nom/prénom ou le NIR [Numéro d’Inscription au Répertoire de l’INSEE, couramment appelé le « numéro de sécurité sociale »].

Les identifiants indirects sont les données qui ne suffisent pas à ré-identifier un individu mais qui, combinées avec d’autres, rendent possible une ré-identification. Par exemple la combinaison (date de naissance, lieu de naissance, code postal, sexe) permettrait de retrouver un individu dans une base.

Dans notre cas, la première étape était déjà réalisée. En effet, toutes les études cliniques sont pseudonymisées, c’est-à-dire que les identifiants directs sont remplacés par une valeur aléatoire.

La deuxième étape, qui consiste à masquer les identifiants indirects, nous a semblé beaucoup plus complexe à mettre en oeuvre et les techniques disponibles pour le faire moins robustes. Après analyse, nous avons conclu qu’aucune technique disponible aujourd’hui ne permettrait d’anonymiser parfaitement la base de données [G29, Opinion 05/2014 sur les techniques d’anonymisation].

Nous nous sommes donc tournés vers la deuxième option d’anonymisation : l’agrégation.

Cette méthode consiste à regrouper les données de plusieurs patients ayant des caractéristiques communes pour calculer des statistiques (moyenne d’âge, poids moyen, etc.). Cette méthode offre un avantage indéniable sur la robustesse de l’anonymisation, même si elle limite les recoupements possibles entre bases.

Pour des raisons évidentes d’éthique, et en accord avec la CNIL, nous avons donc décidé d’anonymiser les données en ayant recours à l’agrégation.

Cette étape nous a permis de générer Roche Open Database, une nouvelle base de données agrégées et anonymisées.

4. Validation

L’étape finale de l’anonymisation consiste à valider la base de données et les résultats obtenus pour déceler d’éventuelles erreurs ou répartitions anormales des données. Nos experts data analysts se sont concentrés essentiellement sur deux éléments. Le premier a été de s’assurer que chaque statistique avait été générée à partir d’un nombre suffisamment important de patients, dans notre cas a minima dix.

Le second a été de vérifier pour les variables continues qu’il y avait une dispersion suffisante des valeurs pour éviter des cas particulier, notamment de répartition en dirac.

Cette vérification marque la finalisation de Roche Open Database. Une base qui allait ensuite être partagée avec tous les participants du Challenge4Cancer d’Epidemium.

Roche Open Database est une initiative véritablement audacieuse qui va dans le sens de la science. En ouvrant ses données sur le cancer, Roche s’inscrit dans la continuité du Plan Cancer qui appelle à rendre plus accessibles les données de santé pour favoriser l’appropriation et l’exploitation de celles-ci par le plus grand nombre.

Le projet n’aurait pas pu aboutir sans le soutien de la CNIL et l’implication d’une équipe experte et pluridisciplinaire. Au-delà de la création de la base, le résultat principal réside sans doute dans la démonstration de la faisabilité de ce type d’initiatives et nous espérons que ce partage permettra d’encourager d’autres actions similaires.


Bibliographie :

  • Souza, T., Kush, R., & Evans, J. P. (2007). “Global clinical data interchange standards are here!”, Drug discovery today, 12(3), 174–181.

Auteur :

PETIT-NIVARD Jean-Frédéric : Innovation Manager chez Roche.

Retrouvez la version web du Livre blanc.

Rejoignez la communauté Meetup, Twitter & Facebook.

Show your support

Clapping shows how much you appreciated Epidemium’s story.