Att skilja mellan ”inga bevis för effekt” och ”bevis för ingen effekt” i randomiserade kontrollerade studier och andra jämförelser | Archives of Disease in Childhood

Om en domstol misslyckas med att fälla en anklagad på grund av ofullständiga bevis, är det då säkert att han är oskyldig? Inte nödvändigtvis. I Skottland kan domstolen, om tillräcklig osäkerhet kvarstår, meddela en dom som ”inte bevisad” i stället för ”oskyldig”. Om en randomiserad kontrollerad studie (RCT) inte visar någon signifikant skillnad mellan behandlingen och kontrollgruppen, bevisar det att behandlingen inte har någon användbar klinisk effekt? Återigen, inte nödvändigtvis. Behandlingen kan fungera, men studien kan ha varit oförmögen att bevisa det.1 Trots detta kan många sådana ”negativa” studier12 , inklusive många som publicerats i denna tidskrift, felaktigt tas som bevis för att behandlingen inte är kliniskt användbar.

Till exempel, i en RCT av kvinnor med risk för för tidig förlossning som inte publicerades som en fullständig rapport3 , förekom respiratoriskt nödsyndrom (RDS) hos tre av 23 barn som föddes i den behandlade gruppen och hos tre av 22 barn som föddes i den obehandlade gruppen. Skillnaden är inte signifikant (2p > 0,9). Om detta hade varit den första och enda studien av denna behandling hade många kanske beslutat att den inte var effektiv och därmed tappat intresset. I själva verket visade översikter av denna,3 och minst 14 andra prövningar så småningom att behandlingen – antenatala steroider – är mycket effektiv eftersom den minskade RDS och neonatal dödlighet hos över 3 500 för tidigt födda barn med ungefär hälften.45 Observera att resultaten av den enda prövningen stämde ganska väl överens med detta resultat.3 Den korrekta slutsatsen från den enda prövningen är inte att antenatala steroider inte fungerar, utan att prövningen saknade tillräcklig effekt för att upptäcka något annat än den mest spektakulära behandlingseffekten. Ungefär hälften av alla RCT:er som rapporterades i Archives of Disease in Childhood mellan 1982 och 1996 rekryterade totalt färre än 40 barn.6 Så små prövningar saknar tillräcklig effekt för att upptäcka måttliga behandlingseffekter och medför en betydande risk för falskt negativa resultat.6

Det är lättare att se detta om prövningsdata presenteras med ett punktskattningsvärde för effekten, t.ex. en relativ risk eller ett oddskvotstal, och ett mått på precision, t.ex. ett konfidensintervall (KI). Om en behandling verkligen inte har någon effekt bör sannolikheten för ett dåligt resultat vara densamma för behandlade och obehandlade patienter, så den relativa risken och oddskvoten tenderar att vara ungefär 1. I det nyss nämnda exemplet3 är oddskvoten för RDS mot ingen RDS mellan behandlade och obehandlade grupper 0,95 (3/20 dividerat med 3/19), och det 95-procentiga KI runt den ligger mellan 0,17 (en minskning med 83 %) och 5,21 (en ökning med 421 %). Så även om oddskvoten ligger nära 1, utesluter denna särskilda studie varken en väsentligt gynnsam eller en väsentligt skadlig effekt eftersom KI är brett. En översikt över alla 15 prövningar ger en oddskvot för effekten av antenatala steroider på RDS på 0,53,5 med ett mycket snävare 95 % KI (0,44-0,63). Med andra ord tyder det på att behandling med antenatala steroider sannolikt minskar oddsen för RDS med mellan 37 % och 56 %, vilket är en otvetydigt betydande fördel, som är mycket signifikant.

När ska läsarna dra slutsatsen att en behandling verkligen inte är kliniskt användbar? Återigen är ett KI till hjälp, och överraskande stora siffror kan behövas. I den fjärde internationella studien av infarktöverlevnad (ISIS-4) tilldelades 58 050 patienter med misstänkt hjärtinfarkt slumpmässigt intravenöst magnesiumsulfat eller placebo.7 Det fanns 2216 dödsfall och 26 795 överlevande i den behandlade gruppen och 2103 dödsfall och 26 936 överlevande i placebogruppen, en skillnad som ger ett oddskvotstal för ökad dödlighet med magnesium på 1,06 med ett 95-procentigt KI på 1,00 till 1,13 (2p = 0,07). Med andra ord var magnesium, åtminstone så som det gavs i just denna studie, inte effektivt eftersom det var osannolikt att det minskade dödligheten (och kan till och med ha ökat den med upp till 13 %). På samma sätt kan läsare endast dra tillförlitliga slutsatser om att två aktiva behandlingar är likvärdiga – eller att en eventuell skillnad mellan dem är för liten för att vara kliniskt viktig – när urvalet är tillräckligt stort.8

Hur kan forskare utforma RCT:er som är tillräckligt kraftfulla för att visa att det inte finns några kliniskt viktiga skillnader mellan behandling och placebo eller mellan två aktiva behandlingar? Detta kräver en förhandsbedömning av lämpliga urvalsstorlekar, vilket kan kräva samråd med en statistiker, men kan enkelt göras för dikotoma utfall (t.ex. överlevnad eller död) med hjälp av programvara som Epi Info.9 Detta programvarupaket gör det möjligt att beräkna relativa risker, oddskvoter och 95 % KI, och det kan laddas ner gratis från Internet (http://www.soton.ac.uk/∼medstats/epiinfo/). Att beräkna urvalsstorlekar när utfallet är en kontinuerlig variabel (t.ex. blodtryck eller vistelsetid) är mer komplicerat och kommer nästan säkert att kräva samråd med en statistiker. Det kan tilläggas att ”nollhypotesen”, dvs. att en behandlingsskillnad är exakt lika med 0 eller en relativ risk eller ett oddskvot exakt lika med 1, ofta varken är trovärdig eller intressant. Mycket viktigare är frågan om behandlingseffekten är tillräckligt stor för att vara av kliniskt intresse eller tillräckligt liten för att ignoreras. Ett konventionellt signifikanstest (p-värde) kan inte ge denna information; endast ett intervall som täcker det verkliga värdet av behandlingsskillnaden med känt förtroende kan göra det.

Många undersökare rapporterar i sina resultattabeller två kolumner med medelvärden eller procentsatser för försökets kontroll- och behandlade grenar. I det förstnämnda fallet ingår vanligen standardavvikelser, standardfel eller konfidensgränser för varje kolumn. I själva verket är det skillnaderna mellan de två kolumnerna (eller oddskvoter för procentandelar) som är av intresse för läsaren, och dessa bör alltid visas tillsammans med deras standardfel eller konfidensgränser. Detta är särskilt viktigt när uppgifterna innefattar parning eller matchning av behandlade och kontrollerade försökspersoner, som i crossover-studier, eftersom skillnaden då inte kan härledas från de enskilda standardavvikelserna.

Presentationen av försöksresultat har viktiga implikationer för läsare, författare, redaktörer, referenter och patienter. Om behandlingar felaktigt avskrivs som ineffektiva kommer patienterna att berövas bättre vård. Att felaktigt acceptera behandlingar som effektiva utsätter patienterna för onödiga risker och slösar bort resurser. Vi kan alla bidra till att lösa dessa problem genom att förvänta oss och rutinmässigt inkludera KI eller andra mått på precisionen för skattningar av utfallet i sammanfattningar och rapporter om prövningar och genom att ange om och hur urvalsstorleken har beräknats i förväg.10 Dessa åtgärder har rekommenderats i CONSORT-uttalandet11 , som Archives of Disease in Childhood har godkänt (se redaktörernas anmärkning i referens 6). Vi kan också utforma och stödja större prövningar med tillräcklig effekt för att upptäcka realistiskt måttliga, snarare än alltför optimistiskt stora behandlingseffekter.612 Sådana prövningar kommer i allt högre grad att kräva samarbete mellan flera centra och bör vara enkla så att upptagna centra kan bidra utan att ta på sig en alltför stor börda av extra arbete.

Författarnas anmärkning

Kravet i CONSORT-riktlinjerna11 om att rapporter om kliniska prövningar ska räkna och karakterisera alla patienter som inte ingår i prövningen innebär ytterligare arbete för upptagna deltagare och har kritiserats för att det ofta har ett lågt värde och ofta är omöjligt.13 Det verkar viktigare att beskriva viktiga egenskaper hos patienterna när de randomiseras till studien och rapportera resultaten i förspecificerade undergrupper, så att resultaten kan generaliseras till andra patienter med liknande egenskaper.

Acknowledgments

Vi tackar Richard Peto och den anonyma referenten för hjälpsamma kommentarer. Perinatal Epidemiology Group är en del av Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposal to outlaw the term ”negative trial”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Absence of evidence is not evidence of absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid, antibiotika och tokolytika jämfört med ingen steroid-, antibiotika- och tokolytikabehandling hos patienter med prematur PROM vid 25-32 veckor. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Kortikosteroider före prematur förlossning. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Cochrane-biblioteket). Update Software, 1998 (uppdateras kvartalsvis).

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: en randomiserad faktoriell studie som utvärderar tidigt oralt captopril, oralt mononitrat och intravenöst magnesiumsulfat hos 58 050 patienter med misstänkt akut hjärtinfarkt. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Försök för att bedöma likvärdighet: vikten av rigorösa metoder. BMJ 313:36-39.

    1. Världshälsoorganisationen

    (1996) Epi Info 6. (WHO, Genève).

    1. Grant JM

    (1995) Randomiserade prövningar och British Journal of Obstetrics and Gynaecology. Minimikrav för publicering. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. Behovet av studier av mortalitet och allvarlig morbiditet med tillräcklig effekt. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Rapportering av kliniska prövningar. Lancet 348:894-895.

Lämna ett svar

Lämna ett svar

Din e-postadress kommer inte publiceras.