Unterscheidung zwischen „kein Nachweis einer Wirkung“ und „kein Nachweis einer Wirkung“ in randomisierten kontrollierten Studien und anderen Vergleichen | Archives of Disease in Childhood

Wenn ein Gericht einen Angeklagten nicht verurteilt, weil die Beweise unvollständig sind, ist dann seine Unschuld zweifelsfrei erwiesen? Nicht unbedingt. In Schottland kann das Gericht bei ausreichender Ungewissheit anstelle von „nicht schuldig“ auch „nicht bewiesen“ urteilen. Wenn eine randomisierte kontrollierte Studie (RCT) keinen signifikanten Unterschied zwischen der Behandlungs- und der Kontrollgruppe zeigt, beweist das dann, dass die Behandlung keine nützliche klinische Wirkung hat? Auch hier gilt: nicht unbedingt. Es kann sein, dass die Behandlung wirkt, aber die Studie war nicht in der Lage, dies zu beweisen.1 Trotzdem können viele solcher „negativen“ Studien,12 darunter auch viele in dieser Zeitschrift veröffentlichte, fälschlicherweise als Beweis dafür angesehen werden, dass die Behandlung klinisch nicht nützlich ist.

In einer RCT bei Frauen mit Frühgeburtsrisiko, die nicht als vollständiger Bericht veröffentlicht wurde,3 trat das Atemnotsyndrom (RDS) bei drei von 23 Säuglingen der behandelten Gruppe und drei von 22 Säuglingen der unbehandelten Gruppe auf. Der Unterschied ist nicht signifikant (2p > 0,9). Wäre dies die erste und einzige Studie zu dieser Behandlung gewesen, hätten viele Menschen vielleicht entschieden, dass sie nicht wirksam ist, und damit ihr Interesse verloren. Tatsächlich ergaben Übersichten dieser3 und mindestens 14 weiterer Studien, dass die Behandlung – vorgeburtliche Steroide – hochwirksam ist, da sie das RDS und die neonatale Sterblichkeit bei über 3500 Frühgeborenen um etwa die Hälfte reduzierte.45 Es ist zu beachten, dass die Ergebnisse der einzigen Studie mit diesem Befund übereinstimmen.3 Die richtige Schlussfolgerung aus dieser einzigen Studie ist nicht, dass vorgeburtliche Steroide nicht wirken, sondern dass die Studie nicht aussagekräftig genug war, um irgendetwas anderes als den spektakulärsten Behandlungseffekt zu entdecken. An etwa der Hälfte aller RCTs, über die zwischen 1982 und 1996 in Archives of Disease in Childhood berichtet wurde, nahmen insgesamt weniger als 40 Kinder teil.6So kleine Studien haben nicht genug Aussagekraft, um mäßige Behandlungseffekte aufzudecken, und bergen ein erhebliches Risiko falsch negativer Ergebnisse.6

Dies ist leichter zu erkennen, wenn die Studiendaten mit einer Punktschätzung der Wirkung, wie einem relativen Risiko oder einem Quotenverhältnis, und einem Maß für die Genauigkeit, wie einem Konfidenzintervall (CI), dargestellt werden. Wenn eine Behandlung wirklich keine Wirkung hat, sollte die Wahrscheinlichkeit eines schlechten Ergebnisses für behandelte und unbehandelte Patienten gleich sein, so dass das relative Risiko und das Odds Ratio jeweils dazu tendieren, ungefähr 1 zu sein. In dem soeben zitierten Beispiel3 beträgt das Odds Ratio für RDS vs. kein RDS zwischen behandelten und unbehandelten Gruppen 0,95 (3/20 geteilt durch 3/19), und der 95%ige CI um diesen Wert herum liegt zwischen 0,17 (eine Verringerung um 83%) und 5,21 (eine Zunahme um 421%). Obwohl das Odds Ratio also nahe bei 1 liegt, schließt diese spezielle Studie weder eine wesentlich günstige noch eine wesentlich schädliche Wirkung aus, da der KI breit ist. Ein Überblick über alle 15 Studien ergibt ein Odds Ratio für die Wirkung von pränatalen Steroiden auf das RDS von 0,53,5 mit einem viel engeren 95%-KI (0,44 bis 0,63). Mit anderen Worten: Die Behandlung mit pränatalen Steroiden verringert die Wahrscheinlichkeit eines RDS um 37 % bis 56 %, ein eindeutig erheblicher Nutzen, der hochsignifikant ist.

Wann sollte man zu dem Schluss kommen, dass eine Behandlung wirklich nicht klinisch nützlich ist? Auch hier ist ein CI hilfreich, und es können überraschend große Zahlen erforderlich sein. In der vierten internationalen Studie zum Infarktüberleben (ISIS-4) wurden 58 050 Patienten mit Verdacht auf Myokardinfarkt nach dem Zufallsprinzip intravenösem Magnesiumsulfat oder Placebo zugeteilt.7 In der behandelten Gruppe gab es 2216 Todesfälle und 26 795 Überlebende, in der Placebogruppe 2103 Todesfälle und 26 936 Überlebende, ein Unterschied, der ein Odds Ratio für eine erhöhte Sterblichkeit unter Magnesium von 1,06 ergibt, mit einem 95%igen CI von 1,00 bis 1,13 (2p = 0,07). Mit anderen Worten: Magnesium, zumindest in der Form, in der es in dieser Studie verabreicht wurde, war nicht wirksam, da es die Sterblichkeit wahrscheinlich nicht verringerte (und sie möglicherweise sogar um bis zu 13 % erhöhte). In ähnlicher Weise kann der Leser nur dann zuverlässig zu dem Schluss kommen, dass zwei aktive Behandlungen gleichwertig sind – oder dass jeder Unterschied zwischen ihnen zu gering ist, um klinisch wichtig zu sein -, wenn die Stichprobe groß genug ist.8

Wie können Forscher RCTs entwerfen, die stark genug sind, um zu zeigen, dass keine klinisch wichtigen Unterschiede zwischen Behandlung und Placebo oder zwischen zwei aktiven Behandlungen bestehen? Dies erfordert eine vorherige Schätzung des angemessenen Stichprobenumfangs, die möglicherweise die Beratung durch einen Statistiker erfordert, aber für dichotome Ergebnisse (z. B. Überleben oder Tod) mit Hilfe von Software wie Epi Info leicht durchgeführt werden kann.9 Dieses Softwarepaket ermöglicht die Berechnung von relativen Risiken, Odds Ratios und 95 % CI und kann kostenlos aus dem Internet heruntergeladen werden (http://www.soton.ac.uk/∼medstats/epiinfo/). Die Berechnung des Stichprobenumfangs, wenn es sich bei dem Ergebnis um eine kontinuierliche Variable handelt (z. B. Blutdruck oder Aufenthaltsdauer), ist komplizierter und erfordert mit Sicherheit die Beratung durch einen Statistiker. Es sei hinzugefügt, dass die „Nullhypothese“, d. h. dass ein Behandlungsunterschied genau gleich 0 oder ein relatives Risiko oder ein Odds Ratio genau gleich 1 ist, oft weder plausibel noch interessant ist. Viel wichtiger ist die Frage, ob die Größe des Behandlungseffekts groß genug ist, um von klinischem Interesse zu sein, oder klein genug, um ignoriert zu werden. Ein herkömmlicher Signifikanztest (p-Wert) kann diese Information nicht liefern; nur ein Bereich, der den wahren Wert des Behandlungsunterschieds mit bekannter Sicherheit abdeckt, kann dies tun.

Viele Prüfer geben in ihren Ergebnistabellen zwei Spalten mit Mittelwerten oder Prozentsätzen für den Kontroll- und den Behandlungsarm der Studie an. Im ersten Fall werden in der Regel Standardabweichungen, Standardfehler oder Konfidenzgrenzen für jede Spalte angegeben. Tatsächlich sind die für den Leser interessanten Größen die Unterschiede zwischen den beiden Spalten (oder Odds Ratios bei Prozentsätzen), und diese sollten immer mit ihren Standardfehlern oder Konfidenzgrenzen angegeben werden. Dies ist besonders wichtig, wenn die Daten ein Pairing oder Matching von behandelten und Kontrollpersonen beinhalten, wie bei Crossover-Studien, da dann die Genauigkeit des Unterschieds nicht aus den einzelnen Standardabweichungen abgeleitet werden kann.

Die Darstellung von Studienergebnissen hat wichtige Auswirkungen für Leser, Autoren, Herausgeber, Gutachter und Patienten. Werden Behandlungen fälschlicherweise als unwirksam abgetan, wird den Patienten eine bessere Versorgung vorenthalten. Werden Behandlungen fälschlicherweise als wirksam anerkannt, setzt dies die Patienten unnötigen Risiken aus und verschwendet Ressourcen. Wir alle können dazu beitragen, diese Probleme anzugehen, indem wir in Studienzusammenfassungen und -berichten KI oder andere Maßstäbe für die Präzision von Ergebnisschätzungen erwarten und routinemäßig einbeziehen und angeben, ob und wie der Stichprobenumfang im Voraus berechnet wurde.10 Diese Maßnahmen wurden in der CONSORT-Erklärung11 empfohlen, die von Archives of Disease in Childhood unterstützt wird (siehe Anmerkung der Herausgeber in Referenz 6). Wir können auch größere Studien konzipieren und unterstützen, die die Kraft haben, realistisch moderate statt zu optimistisch große Behandlungseffekte nachzuweisen.612 Solche Studien werden in zunehmendem Maße eine multizentrische Zusammenarbeit erfordern und sollten so einfach sein, dass vielbeschäftigte Zentren einen Beitrag leisten können, ohne eine zu große Last an zusätzlicher Arbeit auf sich zu nehmen.

Anmerkung der Autoren

Die Forderung in den CONSORT-Leitlinien11 , dass in den Berichten über klinische Studien alle Patienten, die nicht in die Studie eingeschlossen waren, gezählt und charakterisiert werden sollten, bedeutet für vielbeschäftigte Teilnehmer zusätzliche Arbeit und wurde als häufig wenig wertvoll und oft unmöglich kritisiert.13 Es scheint wichtiger zu sein, die Hauptmerkmale der Patienten zu beschreiben, wenn sie in die Studie randomisiert werden, und die Ergebnisse in vorher festgelegten Untergruppen zu berichten, damit die Ergebnisse auf andere Patienten mit ähnlichen Merkmalen verallgemeinert werden können.

Danksagungen

Wir danken Richard Peto und dem anonymen Gutachter für hilfreiche Kommentare. Die Perinatal Epidemiology Group ist Teil der Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposal to outlaw the term „negative trial“. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Absence of evidence is not evidence of absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid-, Antibiotika- und Tokolytika-Behandlung versus keine Steroid-, Antibiotika- und Tokolytika-Behandlung bei Patientinnen mit Frühgeborenen-PROM in der 25-32 Woche. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticosteroids prior to preterm delivery. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Cochrane-Bibliothek). Update Software, 1998 (vierteljährlich aktualisiert)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. Weltgesundheitsorganisation

    (1996) Epi Info 6. (WHO, Genf).

    1. Grant JM

    (1995) Randomisierte Studien und das British Journal of Obstetrics and Gynaecology. Minimum requirements for publication. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. The need for studies of mortality and major morbidity with adequate power. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Clinical trial reporting. Lancet 348:894-895.

Leave a Reply

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.