Distinguer entre « aucune preuve d’effet » et « preuve d’absence d’effet » dans les essais contrôlés randomisés et autres comparaisons | Archives of Disease in Childhood

Si un tribunal ne parvient pas à condamner un défendeur en raison de preuves incomplètes, cela établit-il son innocence hors de tout doute ? Pas nécessairement. En effet, en Écosse, si une incertitude suffisante subsiste, le tribunal peut rendre un verdict de « non prouvé » au lieu de « non coupable ». Si un essai contrôlé randomisé (ECR) ne parvient pas à montrer une différence significative entre le traitement et le groupe témoin, cela prouve-t-il que le traitement n’a aucun effet clinique utile ? Là encore, pas nécessairement. Il se peut que le traitement soit efficace, mais que l’essai n’ait pas été en mesure de le prouver.1 Malgré cela, de nombreux essais « négatifs » de ce type12, dont beaucoup ont été publiés dans cette revue, peuvent être considérés à tort comme la preuve que le traitement n’est pas cliniquement utile.

Par exemple, dans un ECR portant sur des femmes à risque d’accouchement prématuré qui n’a pas été publié en tant que rapport complet3, le syndrome de détresse respiratoire (SDR) est survenu chez trois des 23 bébés nés dans le groupe traité et chez trois des 22 bébés nés dans le groupe non traité. La différence n’est pas significative (2p > 0,9). S’il s’agissait de la première et unique étude sur ce traitement, de nombreuses personnes auraient pu décider qu’il n’était pas efficace et s’en désintéresser. En fait, les synthèses de cet essai,3 et d’au moins 14 autres essais, ont finalement montré que le traitement – les stéroïdes anténatals – est très efficace car il a permis de réduire de moitié environ le SDR et la mortalité néonatale chez plus de 3 500 prématurés.45 Il convient de noter que les résultats de l’essai unique étaient tout à fait cohérents avec cette constatation.3 La conclusion correcte de cet essai unique n’est pas que les stéroïdes anténatals ne sont pas efficaces, mais que l’essai n’avait pas la puissance suffisante pour détecter autre chose que l’effet le plus spectaculaire du traitement. Environ la moitié de tous les ECR rapportés dans les Archives of Disease in Childhood entre 1982 et 1996 ont recruté moins de 40 enfants au total.6 Des essais aussi petits n’ont pas la puissance nécessaire pour détecter des effets de traitement modérés et comportent un risque important de résultats faussement négatifs.6

Ceci est plus facile à voir si les données de l’essai sont présentées avec une estimation ponctuelle de l’effet, comme un risque relatif ou un odds ratio, et une mesure de précision, comme un intervalle de confiance (IC). Si un traitement n’a vraiment aucun effet, la probabilité d’un mauvais résultat devrait être la même pour les patients traités et non traités, de sorte que le risque relatif et l’odds ratio tendront chacun vers 1. Dans l’exemple que nous venons de citer3, l’odds ratio pour le SDR par rapport à l’absence de SDR entre les groupes traités et non traités est de 0,95 (3/20 divisé par 3/19), et l’IC à 95 % qui l’entoure varie entre 0,17 (une réduction de 83 %) et 5,21 (une augmentation de 421 %). Ainsi, bien que l’odds ratio soit proche de 1, cet essai particulier n’exclut ni un effet substantiellement bénéfique ni un effet substantiellement nocif, car l’IC est large. Une vue d’ensemble des 15 essais donne un odds ratio pour l’effet des stéroïdes prénatals sur le SDR de 0,53,5 avec un IC à 95 % beaucoup plus étroit (0,44 à 0,63). En d’autres termes, cela suggère que le traitement par stéroïdes anténatals est susceptible de réduire les chances de SDR de 37% à 56%, un bénéfice substantiel sans équivoque, qui est hautement significatif.

Quand les lecteurs doivent-ils conclure qu’un traitement n’est vraiment pas cliniquement utile ? Là encore, un IC est utile, et des chiffres étonnamment élevés peuvent être nécessaires. Dans la quatrième étude internationale sur la survie des infarctus (ISIS-4), 58 050 patients présentant une suspicion d’infarctus du myocarde ont été répartis au hasard entre le sulfate de magnésium intraveineux et le placebo.7 Il y a eu 2216 décès et 26 795 survivants dans le groupe traité et 2103 décès et 26 936 survivants dans le groupe placebo, une différence qui donne un odds ratio pour une mortalité accrue avec le magnésium de 1,06, avec un IC à 95% de 1,00 à 1,13 (2p = 0,07). En d’autres termes, le magnésium, du moins tel qu’il a été administré dans cette étude particulière, n’était pas efficace parce qu’il était peu susceptible de réduire la mortalité (et pourrait même l’avoir augmentée de 13 %). De même, les lecteurs ne peuvent conclure de manière fiable que deux traitements actifs sont équivalents – ou que toute différence entre eux est trop faible pour être cliniquement importante – que lorsque l’échantillon est suffisamment grand.8

Comment les chercheurs peuvent-ils concevoir des ECR suffisamment puissants pour montrer qu’il n’existe aucune différence cliniquement importante entre le traitement et le placebo ou entre deux traitements actifs ? Cela nécessite une estimation préalable de la taille appropriée des échantillons, ce qui peut nécessiter la consultation d’un statisticien, mais peut être facilement réalisé pour des résultats dichotomiques (par exemple, la survie ou le décès) à l’aide d’un logiciel tel que Epi Info.9 Ce logiciel permet de calculer les risques relatifs, les odds ratios et les IC à 95%, et peut être téléchargé gratuitement sur Internet (http://www.soton.ac.uk/∼medstats/epiinfo/). Le calcul de la taille des échantillons lorsque le résultat est une variable continue (par exemple, la pression artérielle ou la durée du séjour) est plus compliqué et nécessitera presque certainement la consultation d’un statisticien. On peut ajouter que l' »hypothèse nulle », à savoir qu’une différence de traitement est exactement égale à 0 ou un risque relatif ou un odds ratio exactement égal à 1, n’est souvent ni plausible ni intéressante. Il est beaucoup plus important de savoir si la taille de l’effet du traitement est suffisamment importante pour présenter un intérêt clinique ou suffisamment faible pour être ignorée. Un test de signification conventionnel (valeur p) ne peut pas fournir cette information ; seule une fourchette qui couvre la vraie valeur de la différence de traitement avec un degré de confiance connu peut le faire.

De nombreux investigateurs reportent dans leurs tableaux de résultats deux colonnes de moyennes ou de pourcentages pour les bras témoin et traité de l’essai. Dans le premier cas, les écarts types, les erreurs types ou les limites de confiance pour chaque colonne sont couramment inclus. En fait, les quantités qui intéressent le lecteur sont les différences entre les deux colonnes (ou les rapports de cotes pour les pourcentages), et celles-ci doivent toujours être indiquées avec leurs erreurs standard ou leurs limites de confiance. Ceci est particulièrement important lorsque les données impliquent une paire ou un appariement des sujets traités et des sujets témoins, comme dans les études croisées, car alors la précision de la différence ne peut pas être dérivée des écarts-types individuels.

La présentation des résultats des essais a des implications importantes pour les lecteurs, les auteurs, les rédacteurs, les arbitres et les patients. Le fait d’écarter à tort les traitements comme étant inefficaces privera les patients de meilleurs soins. Accepter à tort des traitements comme efficaces expose les patients à des risques inutiles et gaspille les ressources. Nous pouvons tous contribuer à résoudre ces problèmes en attendant et en incluant systématiquement l’IC ou d’autres mesures de la précision des estimations des résultats dans les résumés et les rapports d’essais, et en indiquant si et comment la taille de l’échantillon a été calculée à l’avance.10 Ces mesures ont été recommandées dans la déclaration CONSORT,11 que Archives of Disease in Childhood a approuvée (voir la note des éditeurs dans la référence 6). Nous pouvons également concevoir et soutenir des essais de plus grande envergure ayant la puissance nécessaire pour détecter des effets modérés et réalistes du traitement, plutôt que des effets trop importants et optimistes.612 De plus en plus, ces essais nécessiteront une collaboration multicentrique et devraient être simples afin que les centres occupés puissent y contribuer sans assumer une charge de travail supplémentaire trop importante.

Note des auteurs

L’exigence des directives CONSORT11 selon laquelle les rapports d’essais cliniques doivent compter et caractériser tous les patients non inclus dans l’essai impose un travail supplémentaire aux participants occupés et a été critiquée comme étant fréquemment de peu de valeur et souvent impossible13. Il semble plus important de décrire les caractéristiques clés des patients lorsqu’ils sont randomisés dans l’essai et de rapporter les résultats dans des sous-groupes préspécifiés, afin que les résultats puissent être généralisés à d’autres patients présentant des caractéristiques similaires.

Remerciements

Nous remercions Richard Peto et l’arbitre anonyme pour leurs commentaires utiles. Le groupe d’épidémiologie périnatale fait partie du Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposition de proscrire le terme « essai négatif ». BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) L’absence de preuve n’est pas une preuve d’absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Prise en charge stéroïde, antibiotique et tocolytique versus aucune prise en charge stéroïde, antibiotique et tocolytique chez les patients présentant un PROM prématuré à 25-32 semaines. Las Vegas : Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Corticothérapie anténatale : une méta-analyse des essais randomisés, 1972 à 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticostéroïdes avant un accouchement prématuré. In : Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Bibliothèque Cochrane). Logiciel de mise à jour, 1998 (mise à jour trimestrielle)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) Une revue des essais contrôlés randomisés publiés dans les archives des maladies de l’enfance de 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4 : un essai factoriel randomisé évaluant le captopril oral précoce, le mononitrate oral et le sulfate de magnésium intraveineux chez 58 050 patients suspectés d’infarctus aigu du myocarde. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence : the importance of rigorous methods. BMJ 313:36-39.

    1. Organisation mondiale de la santé

    (1996) Epi Info 6. (OMS, Genève).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Minimum requirements for publication. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Améliorer la qualité des rapports d’essais contrôlés randomisés : la déclaration CONSORT. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Essais contrôlés randomisés en médecine périnatale : I. La nécessité d’études sur la mortalité et la morbidité majeure avec une puissance adéquate. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Clinical trial reporting. Lancet 348:894-895.

Leave a Reply

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.