Onderscheid tussen “geen bewijs van effect” en “bewijs van geen effect” in gerandomiseerde gecontroleerde onderzoeken en andere vergelijkingen | Archives of Disease in Childhood

Als een rechtbank een verdachte niet veroordeelt omdat het bewijsmateriaal onvolledig is, staat dat dan gelijk aan zijn onschuld zonder twijfel? Niet noodzakelijkerwijs. In Schotland kan de rechtbank, als er voldoende onzekerheid blijft bestaan, een uitspraak doen als “niet bewezen” in plaats van “niet schuldig”. Als een gerandomiseerde gecontroleerde trial (RCT) geen significant verschil laat zien tussen de behandeling en de controlegroep, bewijst dat dan dat de behandeling geen nuttig klinisch effect heeft? Nogmaals, niet noodzakelijk. Het kan zijn dat de behandeling werkt, maar dat de trial dat niet heeft kunnen aantonen.1 Desondanks kunnen veel van dergelijke “negatieve” trials,12 waaronder veel die in dit tijdschrift zijn gepubliceerd, ten onrechte worden opgevat als bewijs dat de behandeling klinisch niet nuttig is.

Bij voorbeeld, in een RCT van vrouwen met een risico op vroeggeboorte die niet als volledig rapport is gepubliceerd,3 kwam respiratoir distress syndroom (RDS) voor bij drie van de 23 baby’s die in de behandelde groep werden geboren en bij drie van de 22 baby’s die in de onbehandelde groep werden geboren. Het verschil is niet significant (2p > 0,9). Indien dit de eerste en enige studie van deze behandeling was geweest, hadden velen wellicht besloten dat deze behandeling niet doeltreffend was en dus hun belangstelling verloren. Overzichten van deze studie,3 en minstens 14 andere studies, toonden uiteindelijk aan dat de behandeling – prenatale steroïden – zeer doeltreffend is omdat ze RDS en neonatale sterfte bij meer dan 3500 premature zuigelingen met ongeveer de helft verminderde.45 Merk op dat de resultaten van de enige studie vrij consistent waren met deze bevinding.3 De juiste conclusie van die ene studie is niet dat prenatale steroïden niet werken, maar dat de studie onvoldoende power had om iets anders dan het meest spectaculaire behandelingseffect te detecteren. Bij ongeveer de helft van alle RCT’s die tussen 1982 en 1996 in Archives of Disease in Childhood zijn gerapporteerd, zijn in totaal minder dan 40 kinderen gerekruteerd.6 Bij dergelijke kleine trials ontbreekt de power om matige behandeleffecten te detecteren en bestaat er een aanzienlijk risico op vals-negatieve resultaten.6

Dit is gemakkelijker te zien als de trialgegevens worden gepresenteerd met een puntschatting van het effect, zoals een relatief risico of een odds ratio, en een maat voor de precisie, zoals een betrouwbaarheidsinterval (CI). Indien een behandeling werkelijk geen effect heeft, zou de waarschijnlijkheid van een slechte uitkomst dezelfde moeten zijn voor behandelde en onbehandelde patiënten, zodat het relatieve risico en de odds ratio elk ongeveer 1 zullen zijn. In het zojuist aangehaalde voorbeeld3 is de odds ratio voor RDS versus geen RDS tussen behandelde en onbehandelde groepen 0,95 (3/20 gedeeld door 3/19), en de 95% CI daaromheen varieert tussen 0,17 (een vermindering van 83%) en 5,21 (een toename van 421%). Hoewel de odds ratio dus dicht bij 1 ligt, sluit deze specifieke proef noch een aanzienlijk gunstig, noch een aanzienlijk schadelijk effect uit omdat het CI breed is. Een overzicht van alle 15 trials geeft een odds ratio voor het effect van antenatale steroïden op RDS van 0,53,5 met een veel smallere 95% CI (0,44 tot 0,63). Met andere woorden, het suggereert dat behandeling met antenatale steroïden waarschijnlijk de kans op RDS vermindert met 37% tot 56%, een ondubbelzinnig substantieel voordeel, dat zeer significant is.

Wanneer moeten lezers concluderen dat een behandeling echt niet klinisch nuttig is? Ook hier is een CI nuttig, en er kunnen verrassend grote aantallen nodig zijn. In de vierde internationale studie van infarctoverleving (ISIS-4), werden 58 050 patiënten met vermoedelijk myocardinfarct willekeurig toegewezen aan intraveneus magnesiumsulfaat of placebo.7 Er waren 2216 sterfgevallen en 26 795 overlevenden in de behandelde groep en 2103 sterfgevallen en 26 936 overlevenden in de placebogroep, een verschil dat een odds ratio voor verhoogde mortaliteit met magnesium geeft van 1,06, met een 95% CI van 1,00 tot 1,13 (2p = 0,07). Met andere woorden, magnesium, althans zoals het in deze specifieke studie werd gegeven, was niet effectief omdat het de mortaliteit waarschijnlijk niet verminderde (en misschien zelfs met 13% deed toenemen). Op dezelfde manier kunnen lezers alleen betrouwbaar concluderen dat twee actieve behandelingen gelijkwaardig zijn – of dat elk verschil tussen hen te klein is om klinisch belangrijk te zijn – als de steekproef groot genoeg is.8

Hoe kunnen onderzoekers RCT’s ontwerpen die krachtig genoeg zijn om aan te tonen dat er geen klinisch belangrijke verschillen bestaan tussen behandeling en placebo of tussen twee actieve behandelingen? Dit vereist voorafgaande schatting van geschikte steekproefgroottes, waarvoor overleg met een statisticus nodig kan zijn, maar het kan gemakkelijk worden gedaan voor dichotome uitkomsten (bijvoorbeeld overleving of overlijden) met behulp van software zoals Epi Info.9 Dit softwarepakket maakt berekening van relatieve risico’s, odds ratio’s en 95% CI mogelijk, en kan gratis van internet worden gedownload (http://www.soton.ac.uk/∼medstats/epiinfo/). De berekening van steekproefgrootten wanneer de uitkomst een continue variabele is (bijvoorbeeld bloeddruk of verblijfsduur), is ingewikkelder en zal vrijwel zeker overleg met een statisticus vereisen. Hieraan kan worden toegevoegd dat de “nulhypothese”, namelijk dat een behandelingsverschil precies gelijk is aan 0 of een relatief risico of een odds ratio precies gelijk is aan 1, vaak plausibel noch interessant is. Veel belangrijker is de vraag of de grootte van het behandelingseffect groot genoeg is om van klinisch belang te zijn, dan wel klein genoeg om te worden genegeerd. Een conventionele significantietest (p-waarde) kan deze informatie niet verschaffen; alleen een bereik dat de werkelijke waarde van het behandelingsverschil met bekende betrouwbaarheid dekt, kan dit doen.

Veel onderzoekers rapporteren in hun tabellen met resultaten twee kolommen met gemiddelden of percentages voor de controle- en behandelde armen van het onderzoek. In het eerste geval worden vaak standaardafwijkingen, standaardfouten of betrouwbaarheidsgrenzen voor elke kolom vermeld. In feite zijn de verschillen tussen de twee kolommen (of odds ratio’s voor percentages) de grootheden die van belang zijn voor de lezer, en deze moeten altijd worden weergegeven met hun standaardafwijkingen of betrouwbaarheidsgrenzen. Dit is vooral belangrijk wanneer de gegevens gepaard gaan met het paren of matchen van behandelde en controlepersonen, zoals in cross-over studies, omdat de precisie van het verschil dan niet kan worden afgeleid uit de individuele standaardafwijkingen.

De presentatie van trialresultaten heeft belangrijke implicaties voor lezers, auteurs, redacteuren, referenten, en patiënten. Door behandelingen ten onrechte als ondoeltreffend af te doen, wordt patiënten betere zorg onthouden. Het ten onrechte accepteren van behandelingen als effectief stelt patiënten bloot aan onnodige risico’s en verspilt middelen. We kunnen allemaal helpen deze problemen aan te pakken door te verwachten dat CI’s of andere maatstaven voor de nauwkeurigheid van schattingen van uitkomsten in samenvattingen en verslagen van onderzoeken worden opgenomen, en door routinematig te vermelden of en hoe de steekproefgrootte van tevoren is berekend.10 Deze maatregelen zijn aanbevolen in de CONSORT-verklaring,11 die door Archives of Disease in Childhood is onderschreven (zie noot van de editors in referentie 6). We kunnen ook grotere trials opzetten en ondersteunen met voldoende power om realistisch gematigde, in plaats van te optimistisch grote, effecten van behandeling op te sporen.612 Dergelijke trials zullen steeds vaker multicentrische samenwerking vereisen en moeten eenvoudig van opzet zijn, zodat drukke centra een bijdrage kunnen leveren zonder al te veel extra werk te hoeven doen.

Authors’ note

De eis in de CONSORT-richtlijnen11 dat in verslagen van klinische trials alle patiënten moeten worden geteld en gekarakteriseerd die niet in de trial zijn geïncludeerd, legt nog meer werk op de drukke deelnemers en is bekritiseerd als vaak van weinig waarde en vaak onmogelijk.13 Het lijkt belangrijker om de belangrijkste kenmerken van de patiënten te beschrijven op het moment dat zij gerandomiseerd werden in de trial en de uitkomsten te rapporteren in vooraf gespecificeerde subgroepen, zodat de resultaten gegeneraliseerd kunnen worden naar andere patiënten met vergelijkbare kenmerken.

Acknowledgments

Wij danken Richard Peto en de anonieme referee voor nuttig commentaar. De Perinatal Epidemiology Group maakt deel uit van de Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposal to outlaw the term “negative trial”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Absence of evidence is not evidence of absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid, antibiotic and tocolytic versus no steroid, antibiotic and tocolytic management in patients with preterm PROM at 25-32 weeks. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticosteroids prior to preterm delivery. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Cochrane bibliotheek). Update Software, 1998 (driemaandelijks bijgewerkt)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial evaluating early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. Wereldgezondheidsorganisatie

    (1996) Epi Info 6. (WHO, Genève).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Minimumeisen voor publicatie. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. The need for studies of mortality and major morbidity with adequate power. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Clinical trial reporting. Lancet 348:894-895.

Leave a Reply

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.