Distinguir entre «ninguna evidencia de efecto» y «evidencia de ausencia de efecto» en los ensayos controlados aleatorios y otras comparaciones | Archives of Disease in Childhood

Si un tribunal no logra condenar a un acusado debido a que las pruebas son incompletas, ¿eso establece su inocencia más allá de toda duda? No necesariamente. De hecho, en Escocia, si queda suficiente incertidumbre, el tribunal puede dar un veredicto de «no probado» en lugar de «no culpable». Si un ensayo controlado aleatorio (ECA) no muestra una diferencia significativa entre el tratamiento y el grupo de control, ¿prueba eso que el tratamiento no tiene ningún efecto clínico útil? De nuevo, no necesariamente. Es posible que el tratamiento funcione, pero que el ensayo no haya podido demostrarlo.1 A pesar de ello, muchos de estos ensayos «negativos»,12 incluidos muchos publicados en esta revista, pueden tomarse erróneamente como prueba de que el tratamiento no es clínicamente útil.

Por ejemplo, en un ECA de mujeres con riesgo de parto prematuro que no se publicó como informe completo,3 el síndrome de dificultad respiratoria (SDR) se produjo en tres de 23 bebés nacidos en el grupo tratado y en tres de 22 bebés nacidos en el grupo no tratado. La diferencia no es significativa (2p > 0,9). Si éste hubiera sido el primer y único estudio sobre este tratamiento, muchas personas podrían haber decidido que no era eficaz y, por lo tanto, habrían perdido el interés. De hecho, las revisiones generales de éste,3 y de al menos otros 14 ensayos, mostraron finalmente que el tratamiento -esteroides prenatales- es muy eficaz, ya que redujo el SDR y la mortalidad neonatal en más de 3.500 recién nacidos prematuros a la mitad aproximadamente.45 Obsérvese que los resultados del único ensayo fueron bastante consistentes con este hallazgo.3 La conclusión correcta de ese único ensayo no es que los esteroides prenatales no funcionen, sino que el ensayo carecía de la potencia suficiente para detectar cualquier cosa que no fuera el efecto más espectacular del tratamiento. Aproximadamente la mitad de todos los ECAs publicados en Archives of Disease in Childhood entre 1982 y 1996 reclutaron a menos de 40 niños en total.6 Los ensayos tan pequeños carecen de la potencia necesaria para detectar efectos moderados del tratamiento y conllevan un riesgo significativo de resultados falsos negativos.6

Esto es más fácil de ver si los datos del ensayo se presentan con una estimación puntual del efecto, como un riesgo relativo o una odds ratio, y una medida de precisión, como un intervalo de confianza (IC). Si un tratamiento no tiene realmente ningún efecto, la probabilidad de un mal resultado debería ser la misma para los pacientes tratados y los no tratados, por lo que el riesgo relativo y la odds ratio tenderán cada uno a ser aproximadamente 1. En el ejemplo que acabamos de citar,3 la odds ratio para el SDR frente a la ausencia de SDR entre los grupos tratados y no tratados es de 0,95 (3/20 dividido por 3/19), y el IC del 95% en torno a él oscila entre 0,17 (una reducción del 83%) y 5,21 (un aumento del 421%). Por lo tanto, aunque el odds ratio es cercano a 1, este ensayo en particular no descarta un efecto sustancialmente beneficioso ni perjudicial porque el IC es amplio. Un resumen de los 15 ensayos da un odds ratio para el efecto de los esteroides prenatales sobre el SDR de 0,53,5 con un IC del 95% mucho más estrecho (0,44 a 0,63). En otras palabras, sugiere que es probable que el tratamiento con corticoides prenatales reduzca las probabilidades de SDR entre un 37% y un 56%, un beneficio inequívocamente sustancial, que es altamente significativo.

¿Cuándo deben los lectores concluir que un tratamiento realmente no es clínicamente útil? De nuevo, un IC es útil, y pueden ser necesarias cifras sorprendentemente grandes. En el cuarto estudio internacional de supervivencia al infarto (ISIS-4), 58 050 pacientes con sospecha de infarto de miocardio fueron asignados aleatoriamente a sulfato de magnesio intravenoso o a placebo.7 Se produjeron 2.216 muertes y 26.795 supervivientes en el grupo tratado y 2.103 muertes y 26.936 supervivientes en el grupo de placebo, una diferencia que arroja una odds ratio para el aumento de la mortalidad con magnesio de 1,06, con un IC del 95% de 1,00 a 1,13 (2p = 0,07). En otras palabras, el magnesio, al menos tal y como se administró en este estudio concreto, no fue eficaz, ya que es poco probable que reduzca la mortalidad (e incluso puede haberla aumentado hasta un 13%). Del mismo modo, los lectores sólo pueden concluir de forma fiable que dos tratamientos activos son equivalentes -o que cualquier diferencia entre ellos es demasiado pequeña para ser clínicamente importante- cuando la muestra es lo suficientemente grande.8

¿Cómo pueden los investigadores diseñar ECAs lo suficientemente potentes como para demostrar que no existen diferencias clínicamente importantes entre el tratamiento y el placebo o entre dos tratamientos activos? Esto requiere la estimación previa de los tamaños de muestra apropiados, lo que puede requerir la consulta con un estadístico, pero puede hacerse fácilmente para los resultados dicotómicos (por ejemplo, la supervivencia o la muerte) utilizando software como Epi Info.9 Este paquete de software permite el cálculo de los riesgos relativos, las odds ratios y el IC del 95%, y puede descargarse gratuitamente de Internet (http://www.soton.ac.uk/∼medstats/epiinfo/). El cálculo del tamaño de la muestra cuando el resultado es una variable continua (por ejemplo, la presión arterial o la duración de la estancia) es más complicado y casi seguro que requerirá la consulta de un estadístico. Cabe añadir que la «hipótesis nula», según la cual una diferencia de tratamiento es exactamente igual a 0 o un riesgo relativo o una odds ratio exactamente igual a 1, no suele ser ni plausible ni interesante. Mucho más importante es la cuestión de si el tamaño del efecto del tratamiento es lo suficientemente grande como para ser de interés clínico, o lo suficientemente pequeño como para ser ignorado. Una prueba de significación convencional (valor p) no puede proporcionar esta información; sólo un rango que cubra el verdadero valor de la diferencia de tratamiento con una confianza conocida puede hacerlo.

Muchos investigadores informan en sus tablas de resultados de dos columnas de medias o porcentajes para los brazos de control y de tratamiento del ensayo. En el primer caso, se suelen incluir las desviaciones estándar, los errores estándar o los límites de confianza para cada columna. En realidad, las cantidades que interesan al lector son las diferencias entre las dos columnas (o las odds ratios en el caso de los porcentajes), y éstas deben mostrarse siempre con sus errores estándar o límites de confianza. Esto es especialmente importante cuando los datos implican el emparejamiento de sujetos tratados y de control, como en los estudios cruzados, porque entonces la precisión de la diferencia no puede derivarse de las desviaciones estándar individuales.

La presentación de los resultados de los ensayos tiene importantes implicaciones para los lectores, autores, editores, árbitros y pacientes. Descartar erróneamente los tratamientos como ineficaces privará a los pacientes de una mejor atención. Aceptar erróneamente los tratamientos como eficaces expone a los pacientes a riesgos innecesarios y desperdicia recursos. Todos podemos ayudar a abordar estos problemas esperando, e incluyendo de forma rutinaria, los IC u otras medidas de la precisión de las estimaciones de los resultados en los resúmenes e informes de los ensayos, e indicando si el tamaño de la muestra se ha calculado de antemano, y cómo se ha hecho.10 Estas medidas se han recomendado en la declaración CONSORT,11 que Archives of Disease in Childhood ha respaldado (véase la nota de los editores en la referencia 6). También podemos diseñar y apoyar ensayos más amplios con la potencia necesaria para detectar efectos del tratamiento realistas y moderados, en lugar de demasiado optimistas.612 Cada vez más, estos ensayos requerirán la colaboración multicéntrica y deben ser sencillos para que los centros ocupados puedan contribuir sin asumir una carga de trabajo adicional demasiado grande.

Nota de los autores

La exigencia de las directrices CONSORT11 de que los informes de los ensayos clínicos cuenten y caractericen a todos los pacientes no incluidos en el ensayo impone más trabajo a los participantes ocupados y ha sido criticada por ser frecuentemente de poco valor y a menudo imposible.13 Parece más importante describir las características clave de los pacientes cuando se les asigna al azar al ensayo e informar de los resultados en subgrupos preespecificados, de modo que los resultados puedan generalizarse a otros pacientes con características similares.

Agradecimientos

Agradecemos a Richard Peto y al árbitro anónimo sus útiles comentarios. El Grupo de Epidemiología Perinatal forma parte de la Colaboración de Investigación de Servicios de Salud del Consejo de Investigación Médica.

    1. Chalmers I

    (1985) Proposal to outlaw the term «negative trial». BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) La ausencia de evidencia no es evidencia de ausencia. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid, antibiotic and tocolytic versus no steroid, antibiotic and tocolytic management in patients with preterm PROM at 25-32 weeks. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticosteroides antes del parto prematuro. En: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Módulo de embarazo y parto de la base de datos Cochrane de revisiones sistemáticas. (Biblioteca Cochrane). Software de actualización, 1998 (actualizado trimestralmente)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. Organización Mundial de la Salud

    (1996) Epi Info 6. (OMS, Ginebra).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Requisitos mínimos para la publicación. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. La necesidad de estudios de mortalidad y morbilidad mayor con una potencia adecuada. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Clinical trial reporting. Lancet 348:894-895.

  • Leave a Reply

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada.