Pequeña guía para el análisis crítico de estudios científicos

¡Ilustrada con acupuntura!

Desde el año 2009 el sistema de salud británico (NHS) incluía la acupuntura como tratamiento para los dolores lumbares. Sin embargo, tras una nueva revisión de la evidencia científica publicada sobre acupuntura, el NHS ha decidido eliminar este tratamiento debido a su eficacia no probada.

De inmediato, los defensores de la acupuntura han clamado al cielo asegurando que hay multitud de estudios que apoyan la eficacia de esta pseudoterapia. ¿Cómo es posible esta aparente discrepancia? O hay estudios o no los hay, ¿no?

Hay que decir en favor de nuestros amigos acupuntores que tienen razón: hay estudios que aparentemente apoyan que esta técnica es útil para el tratamiento de un gran número de enfermedades. Entonces, ¿por qué se empeña el sistema de salud británico, junto con multitud de científicos, en negarles validez? ¿Hay detrás de esto un complot de la industria farmacéutica para vender sus productos?

Es cierto que para demostrar los efectos beneficiosos de una terapia o medicamento se exigen evidencias publicadas en revistas internacionales, pero estos estudios deberían tener unos criterios mínimos de calidad. Los artículos que presentan estas evidencias suelen ser complejos y farragosos, desanimando al lego en ciencia de cualquier intento de comprobar su veracidad. Pero a veces basta con ojear el resumen de estos estudios para constatar su falta de relevancia, y esto es algo que cualquiera (al menos cualquiera que sepa un poco de ingles) puede hacer. Voy a intentar explicar a continuación algunos de estos criterios y las causas que los justifican, utilizando como ejemplo publicaciones reales sobre los (supuestos) beneficios de la acupuntura.

Ausencia de grupo de control

Cuando se intenta validar la eficacia de un tratamiento o medicamento no basta con aplicarlo a los voluntarios que padecen la dolencia a tratar y comprobar si se sienten mejor o no: hay multitud de variables y sesgos (entre ellos, el conocido efecto placebo) que pueden hacerles pensar que han mejorado cuando realmente sólo es su percepción (por esto no son válidos los testimonios de «a mí me funciona»). O, más sencillo aún, padecían una enfermedad de una duración determinada y se curaron solos sin que el medicamento bajo estudio hiciera ningún efecto (regresión de la media).

Para evitar estos sesgos conviene disponer de otro grupo de voluntarios a los que se aplica un tratamiento inocuo. En terminología médica, se conoce como grupo de control. Los voluntarios de este grupo deben padecer la misma patología que el grupo experimental, que es el que sí recibe el tratamiento bajo estudio.

Fuente

Si el tratamiento es efectivo habrá una mejoría constatable en mucho más voluntarios del grupo experimental que en el grupo control. En caso de haber un número similar, podemos decir que el efecto del tratamiento se debe básicamente al efecto placebo.

Fíjate en el siguiente párrafo de un estudio sobre el uso de acupuntura en urgencias para el dolor de muelas (para acceder al artículo haz clic sobre la imagen):

Efectivamente, parece que los 81 pacientes del estudio no se dividieron en un grupo de control y otro con tratamiento, lo cual convierte este estudio en poco fiable.

No aleatorización

La selección de qué pacientes deben incluirse en el grupo de control o en el grupo experimental debe hacerse al azar, con la menor intervención médica posible. Deja que te explique por qué: imagina que un médico asigna voluntarios a los distintos grupos según el orden en que los atiende (pares a grupo de control e impares a experimental, por ejemplo). El siguiente paciente par es un voluntario muy enfermo, así que el investigador decide ponerle en el grupo con tratamiento para que reciba una atención que le pueda servir de algo. Este sesgo humano del médico puede influir en los resultados, ya que estaría proporcionando el tratamiento bajo estudio a los pacientes más graves, en los que también cabe esperar una mayor mejoría.

Por otro lado, el paciente tampoco debe saber en qué grupo está, porque sus expectativas no son las mismas si sabe que recibe tratamiento que si cree recibir placebo. Si cambian estas expectativas, su percepción de mejora se verá afectada. Lo que nos interesa es que ni el investigador ni el paciente sepan quién recibe tratamiento y quién no: es lo que se conoce como estudio doble ciego.

Aplica este criterio al siguiente fragmento de un artículo sobre el uso de acupuntura para dolor lumbar:

En este estudio son los propios pacientes los que deciden en qué grupo se incluyen. Obviamente, aquellos que deciden tratarse con acupuntura lo hacen porque esperan curarse con ella, por lo que serán más sensible a una percepción positiva del tratamiento. No debemos fiarnos de las investigaciones que no utilicen al menos doble ciego (también existen los estudios triple ciego).

El número importa

¿Dirías que un dado está trucado si al lanzarlo te sale un seis? Supongo que no, ha salido por azar. ¿Y si sale dos veces seguidas? ¿Y tres? ¿A partir de qué número de seises seguidos considerarías que el dado está trucado?

A preguntas como esta nos responde la estadística. No voy a entrar en detalles matemáticos (te sorprendería saber cuán probable es que salgan tres o cuatro seises seguidos) pero estoy seguro de que coincidirás conmigo en que cuantas más veces seguidas salga un seis, más probable es que el dado esté trucado.

Algo semejante buscamos en el análisis de la efectividad de un tratamiento. No nos basta con unas pocas personas, tanto en el grupo que recibe tratamiento como en el grupo de control, sino que necesitamos cuantas más, mejor. Es más fiable un resultado obtenido al estudiar a cientos de personas, que si sólo se han considerado unas pocas decenas. Y si estudiamos la efectividad con miles de voluntarios, mucho mejor.

Fíjate en el siguiente estudio sobre el uso de acupuntura para mejorar la calidad del esperma masculino.

Parece cumplir con los criterios anteriores: hay grupo de control y a los voluntarios se les ha asignado tratamiento o placebo de forma aleatoria (lo he marcado en verde). Pero, ¡sólo hay 40 sujetos, repartidos en 28 con tratamiento y 12 con placebo! Eso es claramente insuficiente. Desconfía de los resultados obtenidos con pocos participantes.


Puede que te preguntes cómo es posible que una revista prestigiosa dedicada a difundir investigación médica pueda admitir artículos con estos errores tan evidentes. Eso es porque quizás la revista no es tan prestigiosa como pudiéramos pensar. Para juzgar sobre la calidad de un estudio es recomendable fijarse en qué revista se ha publicado y, en concreto, en su índice de impacto. Pero este es un tema más complejo del que espero hablar en una próxima entrada del blog.

Como resumen, espero que cuando oigas que una pseudoterapia afirma tener pruebas publicadas de su eficacia pidas las publicaciones en las que dice basarse y les eches un vistazo rápido.


Actualización: Muy interesante esta discusión con SkeptPsych sobre la detección de dados trucados.


Si os ha gustado os animo a que lo compartáis con quien queráis. Y podéis hacer clic en el corazoncito que hay al final del artículo.


Show your support

Clapping shows how much you appreciated Guillermo Peris’s story.