Rozróżnianie między „brakiem dowodów na efekt” a „dowodami na brak efektu” w randomizowanych badaniach kontrolowanych i innych porównaniach | Archives of Disease in Childhood

Jeśli sąd nie skazuje oskarżonego z powodu niekompletnych dowodów, czy to ustanawia jego niewinność ponad wszelką wątpliwość? Niekoniecznie. Rzeczywiście w Szkocji, jeśli pozostaje wystarczająca niepewność, sąd może wydać werdykt „nie udowodniono” zamiast „nie winny”. Jeśli randomizowane badanie kontrolowane (RCT) nie wykaże znaczącej różnicy między leczeniem a grupą kontrolną, czy to dowodzi, że leczenie nie ma użytecznego efektu klinicznego? Ponownie, niekoniecznie. Leczenie może działać, ale badanie może nie być w stanie tego udowodnić.1 Mimo to wiele takich „negatywnych” badań,12 w tym wiele opublikowanych w tym czasopiśmie, może być błędnie traktowanych jako dowód, że leczenie nie jest przydatne klinicznie.

Na przykład w badaniu RCT u kobiet zagrożonych przedwczesnym porodem, które nie zostało opublikowane jako pełne sprawozdanie,3 zespół zaburzeń oddychania (respiratory distress syndrome, RDS) wystąpił u trzech z 23 dzieci urodzonych w grupie leczonej i u trzech z 22 dzieci urodzonych w grupie nieleczonej. Różnica ta nie jest istotna (2p > 0,9). Gdyby to było pierwsze i jedyne badanie tego leczenia, wiele osób mogłoby zdecydować, że nie jest ono skuteczne i w związku z tym stracić zainteresowanie. W rzeczywistości, przegląd tego,3 i co najmniej 14 innych badań, ostatecznie wykazał, że leczenie – steroidy przedporodowe – jest bardzo skuteczne, ponieważ zmniejszyło RDS i śmiertelność noworodków u ponad 3500 wcześniaków o około połowę.45 Należy zauważyć, że wyniki pojedynczego badania były dość spójne z tym odkryciem.3 Prawidłowy wniosek z tego pojedynczego badania nie jest taki, że steroidy przedporodowe nie działają, ale że badanie nie miało wystarczającej mocy, aby wykryć cokolwiek poza najbardziej spektakularnym efektem leczenia. Około połowa wszystkich badań RCT opisanych w Archives of Disease in Childhood w latach 1982-1996 obejmowała mniej niż 40 dzieci.6 Badania tak małe jak to nie mają wystarczającej mocy, aby wykryć umiarkowane efekty leczenia i niosą ze sobą znaczne ryzyko wyników fałszywie ujemnych.6

Łatwiej to zauważyć, jeśli dane z badań są prezentowane z punktowym oszacowaniem efektu, takim jak ryzyko względne lub iloraz szans, oraz miarą precyzji, taką jak przedział ufności (CI). Jeżeli leczenie rzeczywiście nie ma wpływu, prawdopodobieństwo złego wyniku powinno być takie samo dla leczonych i nieleczonych pacjentów, więc ryzyko względne i iloraz szans będą miały tendencję do zbliżania się do 1. W przytoczonym właśnie przykładzie3 iloraz szans dla RDS i braku RDS między grupą leczoną i nieleczoną wynosi 0,95 (3/20 podzielone przez 3/19), a 95% CI wokół niego waha się między 0,17 (zmniejszenie o 83%) a 5,21 (zwiększenie o 421%). Tak więc, chociaż iloraz szans jest bliski 1, ta konkretna próba nie wyklucza ani istotnie korzystnego, ani istotnie szkodliwego efektu, ponieważ CI jest szerokie. Przegląd wszystkich 15 badań daje iloraz szans dla wpływu steroidów przedporodowych na RDS równy 0,53,5 ze znacznie węższym 95% CI (0,44 do 0,63). Innymi słowy, sugeruje to, że leczenie steroidami przedporodowymi może zmniejszyć prawdopodobieństwo wystąpienia RDS o 37% do 56%, co stanowi jednoznacznie istotną korzyść, która jest wysoce znacząca.

Kiedy czytelnicy powinni stwierdzić, że leczenie naprawdę nie jest przydatne klinicznie? Ponownie, CI jest pomocny, a zaskakująco duże liczby mogą być potrzebne. W czwartym międzynarodowym badaniu przeżycia w zawale (ISIS-4) 58 050 pacjentów z podejrzeniem zawału mięśnia sercowego przydzielono losowo do dożylnego podawania siarczanu magnezu lub placebo.7 W grupie leczonej było 2216 zgonów i 26 795 osób, które przeżyły, a w grupie placebo 2103 zgony i 26 936 osób, które przeżyły, co stanowi różnicę, która daje iloraz szans dla zwiększonej śmiertelności w przypadku magnezu wynoszący 1,06, z 95% CI wynoszącym 1,00 do 1,13 (2p = 0,07). Innymi słowy, magnez, przynajmniej w postaci, w jakiej był podawany w tym konkretnym badaniu, nie był skuteczny, ponieważ prawdopodobnie nie zmniejszył śmiertelności (a nawet mógł ją zwiększyć o 13%). Podobnie, czytelnicy mogą wiarygodnie stwierdzić, że dwie aktywne terapie są równoważne – lub że jakakolwiek różnica między nimi jest zbyt mała, aby była klinicznie istotna – tylko wtedy, gdy próba jest wystarczająco duża.8

Jak badacze mogą zaprojektować RCT wystarczająco silne, aby wykazać, że nie ma klinicznie istotnych różnic między leczeniem a placebo lub między dwoma aktywnymi terapiami? Wymaga to wcześniejszego oszacowania odpowiedniej wielkości próby, co może wymagać konsultacji ze statystykiem, ale może być łatwo wykonane dla wyników dychotomicznych (na przykład przeżycie lub zgon) przy użyciu oprogramowania takiego jak Epi Info.9 Ten pakiet oprogramowania umożliwia obliczanie ryzyka względnego, ilorazu szans i 95% CI i można go pobrać bezpłatnie z Internetu (http://www.soton.ac.uk/∼medstats/epiinfo/). Obliczanie liczebności próby, gdy wynik jest zmienną ciągłą (na przykład ciśnienie krwi lub długość pobytu) jest bardziej skomplikowane i prawie na pewno będzie wymagało konsultacji ze statystykiem. Można dodać, że „hipoteza zerowa”, w wyniku której różnica w leczeniu jest dokładnie równa 0 lub ryzyko względne lub iloraz szans dokładnie równy 1, często nie jest ani wiarygodna, ani interesująca. O wiele ważniejsze jest pytanie, czy wielkość efektu leczenia jest wystarczająco duża, aby być przedmiotem zainteresowania klinicznego, czy też wystarczająco mała, aby ją zignorować. Konwencjonalny test istotności (wartość p) nie może dostarczyć tej informacji; tylko zakres, który obejmuje prawdziwą wartość różnicy w leczeniu ze znaną pewnością siebie może to zrobić.

Wielu badaczy zgłasza w swoich tabelach wyników dwie kolumny środków lub procentów dla kontrolnych i leczonych ramion badania. W pierwszym przypadku, odchylenia standardowe, błędy standardowe lub granice ufności dla każdej kolumny są powszechnie zawarte. W rzeczywistości, wielkości interesujące dla czytelnika to różnice między dwiema kolumnami (lub iloraz szans dla procentów), a te powinny być zawsze pokazane z ich błędami standardowymi lub granicami ufności. Jest to szczególnie ważne, gdy dane dotyczą łączenia w pary lub dopasowania osób leczonych i kontrolnych, jak w badaniach crossover, ponieważ wtedy precyzja różnicy nie może być wyprowadzona z indywidualnych odchyleń standardowych.

Prezentacja wyników badań ma ważne implikacje dla czytelników, autorów, redaktorów, recenzentów i pacjentów. Nieprawidłowe dyskontowanie terapii jako nieskutecznych pozbawia pacjentów lepszej opieki. Nieprawidłowe akceptowanie terapii jako skutecznych naraża pacjentów na niepotrzebne ryzyko i marnuje zasoby. Wszyscy możemy pomóc w rozwiązaniu tych problemów, oczekując i rutynowo umieszczając w podsumowaniach i raportach z badań CI lub inne miary precyzji oszacowań wyników, a także informując, czy i jak wcześniej obliczono liczebność próby.10 Te środki zostały zalecone w oświadczeniu CONSORT,11 które zostało zatwierdzone przez Archives of Disease in Childhood (patrz uwaga redaktorów w odnośniku 6). Możemy również projektować i wspierać większe badania o mocy pozwalającej na wykrycie realistycznie umiarkowanych, a nie zbyt optymistycznie dużych, efektów leczenia.612 Coraz częściej takie badania będą wymagały współpracy wieloośrodkowej i powinny być proste, aby zajęte ośrodki mogły wnieść swój wkład bez podejmowania zbyt dużego obciążenia dodatkową pracą.

Uwaga autorów

Zapotrzebowanie zawarte w wytycznych CONSORT11 , aby raporty z badań klinicznych liczyły i charakteryzowały wszystkich pacjentów nieobjętych badaniem, nakłada dodatkową pracę na zajętych uczestników i zostało skrytykowane jako często mało wartościowe i często niemożliwe.13 Wydaje się, że ważniejsze jest opisanie kluczowych cech pacjentów podczas randomizacji do badania i zgłaszanie wyników we wstępnie określonych podgrupach, tak aby wyniki można było uogólnić na innych pacjentów o podobnej charakterystyce.

Podziękowania

Dziękujemy Richardowi Peto i anonimowemu recenzentowi za pomocne komentarze. Perinatal Epidemiology Group jest częścią Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Propozycja zdelegalizowania terminu „negative trial”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Absence of evidence is not evidence of absence. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid, antibiotic and tocolytic versus no steroid, antibiotic and tocolytic management in patients with preterm PROM at 25-32 weeks. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticosteroids prior to preterm delivery. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Pregnancy and childbirth module of the Cochrane database of systematic reviews. (Cochrane library). Update Software, 1998 (aktualizowana kwartalnie)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) A review of randomised controlled trials published in archives of disease in childhood from 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. World Health Organisation

    (1996) Epi Info 6. (WHO, Genewa).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Minimalne wymagania dotyczące publikacji. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Randomised controlled trials in perinatal medicine: I. The need for studies of mortality and major morbidity with adequate power. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Clinical trial reporting. Lancet 348:894-895.

Leave a Reply

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.