NOTICE : Description des données Challenge 1 ORL

Marc Fournier
EPIDEMIUM
Published in
7 min readSep 17, 2021

Le challenge est ouvert à tou.te.s les participant.e.s, spécialistes comme non spécialistes, à cette fin un lexique des termes médicaux est produit en fin de document.

Les cancers ORL sont essentiellement dus à l’alcool et au tabac. Dans la quasi-totalité des pays développés, émerge une nouvelle entité, sur un mode quasi-épidémique : les cancers ORL liés au papillomavirus humain (HPV). Son implication est largement connue, au niveau du col utérin où il fait l’objet d’un dépistage systématique dès le début de la vie sexuelle mais son rôle est encore peu connu au niveau ORL. Sur les dernières années, la part des cancers ORL dus à l’HPV ne cesse de croître, jusqu’à devenir majoritaire aux Etats-unis. Ce cancer touche essentiellement l’oropharynx et a donc pour origine une infection sexuellement transmissible. Ce cancer touche des individus plus jeunes et est un problème majeur de santé publique. Il est primordial pour les chercheurs et les cliniciens de toujours mieux connaître les caractéristiques de ces cancers et de ces patients, au niveau clinique mais aussi au niveau protéique et moléculaire comme nous le permet désormais la technologie.

L’un des clefs des thérapeutiques de demain en cancérologie repose sur la connaissance du microenvironnement tumoral, siège des intéractions entre cellules pathologiques et cellules immunitaires.

Le spécialiste anatomo-pathologiste étudie ce microenvironnement à l’aide de techniques d’immunomarquages (reconnaissance spécifique de protéines à la surface des cellules), de quantification de l’expression du virus (RNAscope(R)) mais encore de bien d’autres dont les possibilités sont décuplées par la technologie.

1/ Quelles sont les données auxquelles j’ai accès ?

Les données fournies pour le Challenge 1 « ORL » proviennent de la cohorte « KORL » de 61 patients mise à disposition par le département de cytopathologie de l’hôpital Georges Pompidou (APHP plateforme partagée avec l’Inserm U970). Les jeux de données sont composés d’images immunomarquées de coupes histologiques de tissu cancéreux ORL (Oto-rhino laryngologie, c’est-à-dire de tumeur de la tête et du cou), cancers induits par le virus de l’Human papillomavirus (HPV) prélevé lors de biopsies ou de chirurgie. Ces images sont fournies avec les caractéristiques cliniques des patients correspondants.

L’ensemble des données du Challenge 1 mises à disposition dans le cadre du challenge Epidemium ont été anonymisées par la société Octopize grâce à la technologie « Avatar » et validées par la CNIL (plus de détails sur demande).

L’accès aux données se fait après validation des CGUS puis sur plateforme http://datas3.epidemium.org (en cas de soucis, nous contacter sur slack canal data/dataiku)

2/ Problématique médicale

Question :

- Les marquages positifs correspondant aux cellules composant le microenvironnement tumoral peuvent-ils être prédictifs de la survie des patients ? La survie regroupe la survie globale ou overall survival (durée en mois entre le diagnostic et le décès du patient ou bien la date des dernières nouvelles si le patient est en vie) et la survie sans récidive ou recidive-free survival (durée en moi

Critère de jugement :

- Déterminer un lien statistique entre la présence d’un ou de plusieurs marqueurs, dans la tumeur, dans le stroma ou dans le microenvironnement dans son ensemble et une meilleure survie globale.

Prise en compte des données confondantes :

- Stratification des résultats en fonction du statut OMS, du stade TNM, du RNAscope, des intoxications tabagiques et alcooliques

3/ Technique médicale de production des données

- L’examen cytologique se fait en microscopie optique à la lumière blanche

- Le tissu est coupé, déposé sur une lame, à partir d’une pièce opératoire ou d’une biopsie

- La coloration HES (Hémalun-Eosine-Safran) permet l’étude des tissus (histologie), de leur architecture, et des cellules (cytologie)

- Les lames HES des patients du projet sont scannées. Elles sont entières, c’est-à-dire non découpées en stamps (portion de lame originelle) comme pour les immunomarquages.

- Sur une lame blanche (sans HES) : on réalise un immuno-marquage (à partir d’un anticorps spécifique d’une protéine membranaire d’intérêt) que l’on révèle, en microscopie optique, à la lumière fluorescente, en excitant un fluorochrome précis.

Ce sont les images que nous avons fournies, chaque marquage individuellement (un dossier correspond à un marquage). C’est l’immunofluorescence in situ (i.e. sur le tissu non altéré).

4/ Quels sont les attendus ?

- Les challengers, peuvent reconstituer facilement des multi-marquages on superposant les images transmises: l’intérêt est d’identifier des corrélations entre meilleure survie / ou moins bonne survie (globale i.e. données cliniques) et les marquages (i.e. données d’immunofluorescence) individuels, ou combinés, ce qui laisse un nombre considérable de cas de figures (phénotypes) à explorer. Un phénotype est une combinaison de marqueurs, chaque dossier correspond à un marqueur.

- Un moyen simple est de départager les patients selon la richesse de leurs prélèvements en un certain phénotype cellulaire (i.e. expression d’un ou de plusieurs marqueurs sur une même cellule) en fonction de la médiane en un groupe “haut” et un groupe “bas” et de voir si l’un ou l’autre de ces groupes a une meilleure survie que l’autre, significativement et statistiquement, et en analyse ajustée sur les facteurs confondants transmis (OMS, RNAscope(R), TNM, Âge, Tabac etc.)

- Une autre manière de faire serait de partir de la survie et en fonction de la survie, analyser s’il existe des corrélations avec certains phénotypes, donc le challenge est ouvert, les participants pourront partir soit de la survie, soit de la composition du microenvironnement tumoral

- Sachant que l’on ne sait pas, a priori, dans ce challenge, si un phénotype est associé ou non (et donc prédictif) d’une meilleure survie

- Attention, les challengers doivent étudier les patients: chaque patients/avatars correspond à un certains nombre de stamps (min 1, max 4) dont vous disposez des images marquées

5/ Description des données cliniques (tabulaires)

Patient_ID: avatar’s ID

OMS: score OMS, état général du patient évalué selon le tableau suivant

0

Capable d’une activité identique à celle précédent la maladie, sans aucune restriction

1

Activité physique diminuée mais ambulatoire et capable de mener un travail

2

Ambulatoire et capable de prendre soin de soi, incapable de travailler. Alité moins de 50 % de son temps

3

Capables de seulement quelques soins personnels. Alité ou en chaise plus de 50 % du temps

4

Incapable de prendre soin de lui-même, alité ou en chaise en permanence

Sexe: man or woman

Age: date of birth

Date_biopsie: date of the biopsy

Age_diag: age at diagnostic time

Date_derniere_nouvelles: date of last contact

Deces: deceased: yes no

OS: survie globale en mois évaluée à partir de la date de diagnostic jusqu’à la date des dernières nouvelles / décès, variable to predict

Recidive: recidivism: yes no

Localisation: localization of the cancer

RNA_scope: (= hybridation in situ) : évaluation quantitative scorée de 0 à 2 de l’activité transcriptionnelle des oncoprotéines E6 et E7 de l’HPV, correspond pour faire simple à l’évaluation quantitative de l’activité de transcription de l’ADN viral dans les cellules tumorales.

T: T pour tumor, 1–2 (petits) 3 ou 4 (gros) selon des critères strictes de classification l’UICC 8th HNSCC — en PJ pour illustrer, inutile de le donner aux participants

N: N pour Node, ganglions métastatiques cervicaux : N0 (pas de ganglion envahi), N-1–2–3 (métastases ganglionnaires). N3 est plus envahi que N1.

M: M, métastases à distance dans un autre organe : M0 (pas de métastase à distance) et M1 (métastases)

- Stade TNM : évalue l’agressivité clinique et l’extension de la tumeur, la survie est bien évidemment corrélée avec le TNM

Tabac: tobacco smoker: yes no
Les chiffres 0 1 2 3 sont corrélés à un score :
0 : l’avatar est non fumeur , 1 le score est 0<10, 2 le score est 10<20, 3 le score est strictement supérieur à 30
Score de “paquets années”= nombre de paquets fumés par jour x nombre d’années ( ex : 1 paquet jour pendant 10 ans =10 “paquets années”, 3 paquets par jour durant 3 ans = 9 “paquets années”)

Alcool: alcohol drinker: yes no

Pour extraire la survie sans maladie (disease free survival) :
Date de la biopsie jusqu’à la récidive / dernière nouvelle / décès

6/ Description des données images

1 folder = 1 marker

Component data: Stamps de lame scannée

Composite image (dans chaque folder sauf Segmentation tissulaire):

Immuno marquage/fluorescence in situ (sur le tissu). Anticorps qui vient repérer une protéine. Cet anticorps révélé par fluorochrome permet d’identifier la présence de cette protéine.

Les zones en rouge correspondent au marqueur, et celles en bleu clair (cyan) représentent la tumeur (DAPI)

Segmentation tissulaire:

Stamp sur lequel on a effectué la segmentation des tissus. Les zones sans tissus sont en bleu, celles contenant le stroma en vert, et les zones où sont représentées la tumeur en rouge.

Données de mauvaise qualité:

Cellule 1: 8aab52, 8d1247, 91de1b, 832c5f, 93114f

Cellule 2: 8aab52, 841343

Cellule 4: 8a11b8, 8aab52, 8af7fa, 8b44cd, 8c2bf2, 8d1247, 8e4552, 8fc4c1, 92c47e, 8545ea, 8592f4, 93f80d, 841343, 829316

Cellule 5 (Pas de Dapi) marquage très faible

Cellule 6, DAPI très fort

Pour les avatars n°
- 83c65f (patient dont la différence entre la biopsie et la dernière visite est de 5 mois, cependant la “OS” (overall survival” est de 1 mois) .
-8592f4 (patient dont la biopsie a eu lieu après sa dernière rencontre avec un médecin)
L’équipe médicale enquête s’il s’agit d’une faute de frappe de leur part ou d’un problème lors du processus d’anonymisation.
Pour l’avatar n° 8b44cd (patient dont la différence entre la biopsie et la dernière visite est de 3 mois, mais la OS “overall survival” est de 7 mois) l’équipe médicale avait un enregistrement de 3 mois depuis la dernière visite mais elle a accédé à une base de données nationale qui a confirmé le décès du patient 7 mois après , cette dernière info est la bonne.

7/ Critères d’évaluation

Metrique

En cours de définition par Medhi Benchoufi et les comités scientifique/éthique.

8/ Lexique

- Stroma : tissu environnant la tumeur

- Tumeur : identifée par un marquage cytokératine positif

- Microenvironnement : stroma + tumeur

- Segmentation tissulaire : distinction du microenvironnement entre stroma et tumeur

- Score OMS : état général du patient évalué selon le tableau suivant

- Cytologie (du grec cytos + logos : étude des cellules1) est l’étude des cellules isolées. Il s’agit de l’étude des cellules normales ou pathologiques (cytopathologie), ainsi que de leurs aspect morphologique ou biochimique.

- L’histologie est l’étude morphologique des tissus biologiques.

- Un phénotype est une combinaison de marqueurs, chaque dossier correspond à un marqueur.

  • Stamp (portion de lame originelle)

Ce document a été corédigé par les équipes Epidemium / APHP

--

--