Sondring mellem “ingen beviser for effekt” og “beviser for ingen effekt” i randomiserede kontrollerede forsøg og andre sammenligninger | Archives of Disease in Childhood

Hvis en domstol ikke kan dømme en anklaget på grund af ufuldstændige beviser, fastslår det så hans uskyld uden tvivl? Ikke nødvendigvis. Faktisk kan retten i Skotland, hvis der fortsat er tilstrækkelig usikkerhed, afsige en dom med “ikke bevist” i stedet for “ikke skyldig”. Hvis et randomiseret kontrolleret forsøg (RCT) ikke viser en signifikant forskel mellem behandlingen og kontrolgruppen, beviser det så, at behandlingen ikke har nogen nyttig klinisk effekt? Igen, ikke nødvendigvis. Behandlingen virker måske, men forsøget har måske ikke kunnet bevise det.1 På trods af dette kan mange sådanne “negative” forsøg12 , herunder mange, der er offentliggjort i dette tidsskrift, fejlagtigt tages som bevis for, at behandlingen ikke er klinisk nyttig.

For eksempel forekom respiratorisk distress syndrom (RDS) i et RCT af kvinder med risiko for tidlig fødsel, der ikke blev offentliggjort som en fuld rapport3 , hos tre ud af 23 børn født i den behandlede gruppe og tre ud af 22 børn født i den ubehandlede gruppe. Forskellen er ikke signifikant (2p > 0,9). Hvis dette havde været den første og eneste undersøgelse af denne behandling, ville mange mennesker måske have besluttet, at den ikke var effektiv, og dermed have mistet interessen. Faktisk viste oversigter over dette,3 og mindst 14 andre forsøg i sidste ende, at behandlingen – antenatale steroider – er yderst effektiv, fordi den reducerede RDS og neonatal dødelighed hos over 3.500 for tidligt fødte børn med ca. halvdelen.45 Bemærk, at resultaterne af det ene forsøg var helt i overensstemmelse med dette resultat.3 Den korrekte konklusion fra dette ene forsøg er ikke, at antenatale steroider ikke virker, men at forsøget ikke havde tilstrækkelig effekt til at påvise andet end den mest spektakulære behandlingseffekt. Omkring halvdelen af alle RCT’er, der blev rapporteret i Archives of Disease in Childhood mellem 1982 og 1996, rekrutterede i alt mindre end 40 børn.6 Så små forsøg mangler styrke til at påvise moderate behandlingseffekter og indebærer en betydelig risiko for falsk negative resultater.6

Dette er lettere at se, hvis forsøgsdata præsenteres med et punktestimat af effekten, f.eks. en relativ risiko eller et odds ratio, og et mål for præcision, f.eks. et konfidensinterval (CI). Hvis en behandling virkelig ikke har nogen effekt, bør sandsynligheden for et dårligt resultat være den samme for behandlede og ubehandlede patienter, så den relative risiko og odds ratio vil hver især have en tendens til at ligge omkring 1. I det netop citerede eksempel3 er odds ratio for RDS vs. ingen RDS mellem behandlede og ubehandlede grupper 0,95 (3/20 divideret med 3/19), og 95 % CI omkring det ligger mellem 0,17 (en reduktion på 83 %) og 5,21 (en stigning på 421 %). Så selv om odds ratio er tæt på 1, udelukker dette særlige forsøg hverken en væsentlig gavnlig eller en væsentlig skadelig effekt, fordi CI’et er bredt. En oversigt over alle 15 forsøg giver et odds ratio for effekten af antenatale steroider på RDS på 0,53,5 med et meget smallere 95 % CI (0,44 til 0,63). Med andre ord tyder det på, at behandling med antenatale steroider sandsynligvis reducerer oddsene for RDS med mellem 37 % og 56 %, hvilket er en utvetydigt betydelig fordel, som er meget signifikant.

Hvornår skal læserne konkludere, at en behandling virkelig ikke er klinisk nyttig? Igen er et CI nyttigt, og der kan være behov for overraskende store tal. I den fjerde internationale undersøgelse af infarktoverlevelse (ISIS-4) blev 58 050 patienter med formodet myokardieinfarkt randomiseret til intravenøs magnesiumsulfat eller placebo.7 Der var 2216 dødsfald og 26 795 overlevende i den behandlede gruppe og 2103 dødsfald og 26 936 overlevende i placebogruppen, en forskel, der giver en odds ratio for øget dødelighed med magnesium på 1,06 med et 95 % CI på 1,00 til 1,13 (2p = 0,07). Med andre ord var magnesium, i det mindste som det blev givet i denne særlige undersøgelse, ikke effektivt, fordi det var usandsynligt, at det ikke reducerede dødeligheden (og måske endda øgede den med op til 13 %). På samme måde kan læserne kun med sikkerhed konkludere, at to aktive behandlinger er ækvivalente – eller at en eventuel forskel mellem dem er for lille til at være klinisk vigtig – når stikprøven er stor nok.8

Hvordan kan forskerne udforme RCT’er, der er stærke nok til at vise, at der ikke findes klinisk vigtige forskelle mellem behandling og placebo eller mellem to aktive behandlinger? Dette kræver forudgående estimering af passende stikprøvestørrelser, hvilket kan kræve konsultation med en statistiker, men kan let foretages for dikotome resultater (f.eks. overlevelse eller død) ved hjælp af software som Epi Info.9 Denne softwarepakke gør det muligt at beregne relative risici, odds ratioer og 95 % CI, og den kan downloades gratis fra internettet (http://www.soton.ac.uk/∼medstats/epiinfo/). Beregning af stikprøvestørrelser, når resultatet er en kontinuerlig variabel (f.eks. blodtryk eller opholdslængde), er mere kompliceret og vil næsten helt sikkert kræve konsultation med en statistiker. Det kan tilføjes, at “nulhypotesen”, dvs. at en behandlingsforskel er nøjagtigt lig med 0 eller en relativ risiko eller et odds ratio nøjagtigt lig med 1, ofte hverken er plausibel eller interessant. Langt vigtigere er spørgsmålet om, hvorvidt behandlingseffekten er stor nok til at være af klinisk interesse, eller lille nok til at blive ignoreret. En konventionel signifikanstest (p-værdi) kan ikke give denne information; kun et interval, der dækker den sande værdi af behandlingsforskellen med kendt tillid, kan gøre det.

Mange investigatorer rapporterer i deres resultattabeller to kolonner med middelværdier eller procenter for forsøgets kontrol- og behandlede arme. I førstnævnte tilfælde er det almindeligt, at der medtages standardafvigelser, standardfejl eller konfidensgrænser for hver kolonne. I virkeligheden er de størrelser, der er af interesse for læseren, forskellene mellem de to kolonner (eller odds ratio’er for procenter), og disse bør altid vises sammen med deres standardfejl eller konfidensgrænser. Dette er især vigtigt, når dataene omfatter parring eller matchning af behandlede og kontrolpersoner, som i crossover-undersøgelser, fordi forskellens præcision i så fald ikke kan udledes af de individuelle standardafvigelser.

Præsentationen af forsøgsresultater har vigtige konsekvenser for læsere, forfattere, redaktører, dommere og patienter. Hvis behandlinger fejlagtigt diskonteres som ineffektive, vil patienterne blive frataget bedre behandling. Hvis man fejlagtigt accepterer behandlinger som effektive, udsætter man patienterne for unødige risici og spilder ressourcer. Vi kan alle bidrage til at løse disse problemer ved at forvente og rutinemæssigt medtage CI eller andre mål for præcisionen af estimater af udfaldet i forsøgsresuméer og -rapporter og ved at angive, om og hvordan stikprøvestørrelsen blev beregnet på forhånd.10 Disse foranstaltninger er blevet anbefalet i CONSORT-erklæringen11 , som Archives of Disease in Childhood har tilsluttet sig (se redaktionens note i reference 6). Vi kan også udforme og støtte større forsøg med en styrke, der gør det muligt at påvise realistisk moderate, snarere end overoptimistisk store virkninger af behandlingen.612 Sådanne forsøg vil i stigende grad kræve samarbejde mellem flere centre og bør være enkle, så travle centre kan bidrage uden at påtage sig for stor en byrde af ekstra arbejde.

Autors’ note

Kravet i CONSORT-retningslinjerne11 om, at rapporter om kliniske forsøg skal tælle og karakterisere alle patienter, der ikke er inkluderet i forsøget, pålægger travle deltagere yderligere arbejde og er blevet kritiseret for ofte at være af ringe værdi og ofte umuligt.13 Det synes vigtigere at beskrive de vigtigste karakteristika for patienterne, når de randomiseres til forsøget, og rapportere resultaterne i forud specificerede undergrupper, så resultaterne kan generaliseres til andre patienter med lignende karakteristika.

Akkreditering

Vi takker Richard Peto og den anonyme referee for nyttige kommentarer. Perinatal Epidemiology Group er en del af Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposal to outlaw the term “negative trial”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Absence of evidence is not evidence of absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J. Steroid, antibiotika og tokolytisk versus ingen steroid, antibiotika og tokolytisk behandling hos patienter med præmatur PROM ved 25-32 uger. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..
    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Kortikosteroider forud for præterm fødsel. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Cochrane-biblioteket). Update Software, 1998 (opdateres hvert kvartal).

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. World Health Organisation

    (1996) Epi Info 6. (WHO, Genève).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Minimumskrav til offentliggørelse. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. Behovet for undersøgelser af dødelighed og større morbiditet med tilstrækkelig effekt. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Rapportering af kliniske forsøg. Lancet 348:894-895.

Leave a Reply

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.