Dans deux tribunes récentes, le professeur Raoult s’est prononcé contre la méthode scientifique admise des essais contrôlés randomisés. On trouve chez lui et certains de ses défenseurs divers arguments opposés à ces essais, notamment ceux selon lesquels ils ne seraient pas supérieurs à d’autres méthodes et seraient devenus une pratique standard en partie sous la pression de groupes pharmaceutiques et de « méthodologistes » — les assimilant ainsi à une méthode arbitraire, dogmatique et détachée du concret. Le Pr Raoult favorise quant à lui d’autres méthodes, telle « l’observation anecdotique », considérées comme au moins équivalentes.

Extrait de l’entretien du Dr Raoult au Quotidien du médecin, 2 avril 2020.

Il est donc important de rappeler que si les essais randomisés sont devenus un standard scientifique, ce sont pour des raisons claires et concrètes, et que le but de l’élaboration d’une telle méthode est bien l’identification d’effets réels (et non le goût pour les règles ou l’abstraction). En particulier, l’exigence d’un groupe contrôle n’est pas une clause administrative imposée par des « méthodologistes » tâtillons et procéduriers.

Comment détecter l’effet causé par un traitement ?

Imaginez que je souhaite savoir si une substance, appelons-la C, permet de soigner une maladie. Ce qui m’intéresse est une relation de cause à effet : je veux déterminer si la prise de C améliorera l’état d’individus atteints par la maladie. Que C ait un effet veut dire que prendre C va entraîner un état du malade différent de celui qu’il aurait eu sans prendre C. Pour évaluer l’effet de C sur le malade, il faudrait donc pouvoir comparer au même moment et chez le même malade ce qui se passe en prenant C et ce qui se passe sans prendre C. Idéalement, il faudrait dédoubler le malade, une copie prenant C, l’autre non (ce qui est impossible). On saurait par comparaison que C fonctionne pour le malade si la seule différence entre lui et son « double » était la prise de C. En pratique, on pourrait comparer l’état de deux malades aussi similaires que possible. Il serait cependant toujours possible, pour chaque différence entre eux (par exemple d’âge), de dire que c’est elle et non C qui est responsable de la guérison.

Mais cela ne suffit toujours pas à établir l’efficacité de C. Même si l’individu malade guérit en prenant C (et si sa copie, n’ayant pas pris C, reste malade), cette guérison pourrait être due à l’interaction d’une caractéristique particulière de cet individu avec le traitement ; C pourrait ne pas fonctionner pour d’autres personnes. Il faudrait donc faire le test précédent pour des malades aussi variés que possible, chacun ayant un « double » qui ne prend pas le médicament. On pourrait alors dire que C est efficace si la proportion de guéris est suffisamment plus importante au sein du groupe de malades ayant pris C que la proportion de « doubles » (n’ayant pas pris C) guéris.

Pourquoi des essais contrôlés randomisés ?

Tout cela demeure impossible à réaliser en pratique : jamais on n’obtiendra deux groupes de malades complètement identiques ! On peut cependant approcher cet idéal en choisissant deux groupes de malades constitués au hasard : ainsi, on aura des raisons de penser que, même s’ils ne sont pas identiques, la proportion de caractéristiques en leur sein est la même. Avec des groupes constitués au hasard, les chances sont grandes pour que les proportions d’hommes et de femmes, de vieux et de jeunes, de classes sociales, d’origines ethniques, et de toute caractéristique en général, soient approximativement les mêmes dans les deux groupes.

La formation au hasard permet de rendre les groupes similaires pour les caractéristiques susceptibles d’affecter la guérison alors même qu’on ne connaît pas toutes ces caractéristiques— ce qui est évidemment souvent le cas ! De plus, la similitude entre groupes sera d’autant plus forte que les groupes seront grands, puisque cela augmente les chances que la proportion de telle ou telle caractéristique approche sa proportion dans toute la population.

C’est précisément ce qu’accomplit ce qu’on appelle un essai contrôlé randomisé : il compare l’état résultant de la prise du médicament dans un groupe à l’état d’un groupe suffisamment similaire, à ceci près que personne n’y a pris le médicament. En résumé, il faut au moins deux groupes pour pouvoir effectuer une comparaison ; et ces groupes doivent être randomisés (formés au hasard) afin de minimiser leurs différences.

Voilà donc ce qu’est l’exigence d’avoir recours à des essais contrôlés randomisés : une méthode visant à identifier un effet causal réel, en approchant autant que possible une situation de test idéale (irréalisable). En l’absence de groupe contrôle, qu’il soit idéal ou randomisé, constater que la prise d’une substance est associée à un certain taux de guérison ne suffira pas, car elle ne vous permettra pas d’inférer ce qui se serait passé si les malades n’avaient pas pris la substance.

Refuser le recours à un groupe contrôle, c’est garder toujours présente la possibilité que la guérison de malades (ou l’absence d’effets secondaires) soit due à certaines de leurs caractéristiques, ou à une composition particulière de l’ensemble de malades que vous considérez, plutôt qu’à la substance dont on aimerait connaître l’effet. Car comment savoir alors si les choses se seraient passées différemment sans prise de la substance ? Se fonder sur l’ « observation anecdotique » (de cas particuliers de guérison après prise de la substance) souffre évidemment du même problème. Il est donc erroné de dire, comme dans la tribune citée ci-dessus, que « les essais randomisés ne sont pas supérieurs aux essais observationnels. »

Notons que cela vaut également pour l’identification d’éventuels effets secondaires, dont on doit pouvoir s’assurer que leur absence vaut bien pour les patients en général et n’est pas limitée à certains profils spécifiques. De plus, que les effets secondaires soient bien connus dans le cas de certaines pathologies existantes n’implique pas qu’ils le soient automatiquement dans des cas de Covid-19.

Hiérarchie de données probantes.

Rien de tout cela ne signifie que les essais contrôlés randomisés soient la seule méthode valable et que toute autre source de donnée soit caduque. Un médicament efficace devrait évidemment mener à l’amélioration (même faible) de l’état d’une certaine proportion de malades. Observer ce changement d’état n’est donc pas inutile — après tout, si personne ne voyait son état s’améliorer après prise de la substance, on serait justifié à conclure qu’elle n’a pas d’effet. Seulement, notre conclusion que le médicament est efficace sera alors beaucoup plus incertaine ou moins soutenue qu’elle ne l’aurait été par un essai contrôlé randomisé.

Il existe ainsi en médecine une « hiérarchie des données probantes », qui place les tests randomisés au-dessus des tests non randomisés, c’est-à-dire comme source plus probante de données ; ces derniers incluent notamment les études de cas et les données anecdotiques. Pour répéter : cela ne signifie pas que ces dernières sont inutiles ou non-scientifiques, mais qu’elles soutiennent moins fortement que les premiers la conclusion qu’une substance donnée est efficace.

Les limites des essais contrôlés randomisés.

Les essais contrôlés randomisés ne constituent par ailleurs pas une panacée et sont loin d’être parfaits — ils sont critiquables et critiqués[1], pour au moins quatre raisons. Premièrement, ils ne font qu’approximer une situation de test idéale et ne conduisent donc pas à des conclusions certaines ; de ce point de vue, la différence entre eux et les autres types de test est une différence de degré[2]. Par ailleurs, ils ne valent que si le groupe testé et le groupe contrôle sont suffisamment similaires : leur formation aléatoire ne garantit que certaines chances qu’ils le soient, et il faut donc privilégier des groupes nombreux pour augmenter ces chances. De plus, les seuils à partir desquels un effet est considéré comme significatif sont discutables. Pour pallier ces limites, les résultats de tests randomisés sont parfois combinés en des synthèses systématiques voire ce qu’on appelle des méta-analyses (des analyses d’ensemble d’analyses existantes), ce qui permet d’élargir la base observationnelle.

Deuxièmement, un test randomisé n’est pas toujours réalisable, que ce soit pour des raisons pratiques ou éthiques (ces dernières ne sont cependant pas celles indiquées par le Dr Raoult dans sa tribune du Monde, comme le discute l’éclairant billet récent de J. Ferry-Danini). Je me contenterai de signaler qu’il est difficile de soutenir que priver des patients d’un traitement à l’efficacité non établie n’est pas éthique.

Troisièmement, les essais randomisés sont manipulables, notamment par des scientifiques qui souhaiteraient favoriser l’obtention de certains résultats. C’est cependant également le cas des autres méthodes, y compris celles qui sont non randomisées (dans lesquelles le danger de biais de sélection[3] des individus observés est toujours présent).

Quatrièmement, le résultat d’un essai randomisé fondé sur un groupe donné (par exemple des patients d’une certaine zone géographique) n’est pas nécessairement généralisable à la population entière, parce que toutes les caractéristiques humaines possibles n’y varient pas nécessairement. C’est cependant une limite de toute étude observationnelle[4]. De même qu’un effet sur un individu pourra ne pas correspondre l’effet au niveau d’un groupe, ce dernier peut lui-même différer de l’effet au niveau de la population. De plus, un essai contrôlé randomisé ne détectant qu’un effet moyen, il reste toujours possible que l’effet sur certains profils de patients soit plus fort ou plus faible que sur d’autres, voire inexistant.

Et l’hydroxychloroquine ?

Ce qui compte n’est pas d’utiliser une méthode scientifique menant à des certitudes (une telle méthode n’existe d’ailleurs pas), mais de pouvoir choisir la meilleure parmi celles disponibles, c’est-à-dire la plus à même d’identifier des relations de cause à effet dans un contexte complexe. Les essais randomisés ne sont pas toujours nécessaires et ne sont pas la seule méthode de détection de liens de cause à effet : on n’a effectivement pas besoin d’eux pour déterminer l’effet positif des parachutes. Mais c’est parce que ceux-ci varient très peu en fonction des caractéristiques de porteurs de parachutes (puisqu’il faut le rappeler), et que nous disposons par ailleurs d’une théorie physique extrêmement bien soutenue par l’observation qui nous permet d’expliquer leur effet. Ces deux caractéristiques sont souvent absentes lorsqu’il s’agit de traitements médicamenteux, en particulier celui qui nous intéresse.

Si une substance, mettons l’hydroxychloroquine, a véritablement un effet causal sur une maladie, alors cet effet devrait être détectable (et quantifiable) par un test randomisé bien mené ; et si un tel test ne détecte pas d’effet notable, alors le poids de ce résultat négatif sera supérieur à celui des résultats (éventuellement négatifs) d’une étude non randomisée. Cette conclusion ne résulte pas d’un dogme arbitraire mais simplement d’une prise en considération de la capacité de telle ou telle méthode expérimentale à plus ou moins identifier des liens de cause à effet. Que toutes les méthodes soient imparfaites n’implique pas qu’elles sont équivalentes. La meilleure façon de procéder consistera à utiliser les diverses méthodes à disposition et à quantifier (ou du moins pondérer) le soutien respectif qu’apportent leurs données à l’hypothèse selon laquelle le traitement a une efficacité.

Dans le cas particulier de l’hydroxychloroquine, notons que nous sommes par ailleurs dans une situation où les données observationnelles (non issues de tests contrôlés randomisés) sont équivoques : en effet, le taux de guérison ou d’amélioration n’est pas sensiblement différent de celui observé par ailleurs dans la population. Si l’effet est réel mais faible, il ne pourra être détecté qu’à l’issue d’observations nombreuses impliquant un groupe contrôle et par la comparaison de groupes formés de façon randomisée — sans quoi une petite fluctuation d’effet pourrait toujours être attribuée à la composition particulière du groupe observé.

Contre la méthode ?

Qui donc est « contre la méthode » scientifique, titre d’un ouvrage célèbre de Feyerabend et d’une intervention de février 2020 du Pr Raoult (suivie notamment d’une autre intervention opposée aux essais randomisés)[5] ? Il s’agit en fait de s’opposer à une méthode particulière ; mais les études du Dr Raoult ressortissent aussi à la méthode scientifique au sens large. Feyerabend, lui, s’opposait à l’idée qu’il existait une méthode unique correcte dans tous les contextes, mais surtout dans la création et l’exploration de théories et le changement scientifique. Ici, il ne s’agit que d’établir l’existence et l’intensité de l’effet d’un traitement, pas de bouleverser la pratique scientifique.

Il n’y a pas de mauvaise façon d’avoir des idées et de proposer des traitements (ce pour quoi ingéniosité, inventivité et originalité sont précieuses) ; quant à leur procurer un soutien empirique, c’est une autre affaire. Les méthodes scientifiques d’obtention de données probantes, pour multiples qu’elles soient, ne se valent pas pour autant ; et c’est leur combinaison pondérée qui mène en général à la plus grande confiance en leurs résultats. Si ce qui nous importe est d’identifier l’effet causal d’un médicament potentiel sur une maladie, alors se fonder sur des données observationnelles simples ou anecdotiques ne conduira qu’à des conclusions dont l’incertitude élevée sapera toute décision politique qui se fonderait sur elles.

Cédric Paternotte, Maître de conférences en philosophie des sciences

[1] On trouvera par exemple une critique argumentée des essais contrôlés randomisés et de leur domination dans l’ouvrage récent de Jacob Stegenga, Medical Nihilism.

[2] En particulier, il est tout à fait possible que les résultats d’une étude contrôlée randomisée soient considérés comme moins probants qu’un ensemble suffisant de résultats opposés d’études non randomisées.

[3] On parle de biais de sélection lorsqu’une caractéristique particulière, qui pourrait influer sur l’effet du traitement à évaluer, est surreprésentée parmi les sujets sélectionnés. Un tel biais peut être tout à fait involontaire.

[4] En science, il s’agit de ce qu’on appelle le problème de « validité externe » des résultats.

[5] Soirée scientifique « Contre la méthode », IHU Méditerranée Infection, 13 février 2020 : https://www.mediterranee-infection.com/contre-la-methode/

Maître de conférences en philosophie des sciences, Sorbonne Université

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store