Distinguere tra “nessuna prova di effetto” e “prova di nessun effetto” in studi randomizzati controllati e altri confronti | Archives of Disease in Childhood

Se un tribunale non riesce a condannare un imputato a causa di prove incomplete, questo stabilisce la sua innocenza oltre ogni dubbio? Non necessariamente. Infatti in Scozia, se rimane una sufficiente incertezza, la corte può dare un verdetto di “non provato” invece di “non colpevole”. Se uno studio controllato randomizzato (RCT) non riesce a mostrare una differenza significativa tra il trattamento e il gruppo di controllo, questo prova che il trattamento non ha alcun effetto clinico utile? Di nuovo, non necessariamente. Il trattamento potrebbe funzionare, ma lo studio potrebbe non essere stato in grado di dimostrarlo.1 Nonostante questo, molti di questi studi “negativi”,12 inclusi molti pubblicati in questa rivista, possono essere erroneamente presi come prova che il trattamento non è clinicamente utile.

Per esempio, in un RCT su donne a rischio di parto pretermine che non è stato pubblicato come rapporto completo,3 la sindrome da distress respiratorio (RDS) si è verificata in tre dei 23 bambini nati nel gruppo trattato e tre dei 22 bambini nati nel gruppo non trattato. La differenza non è significativa (2p > 0,9). Se questo fosse stato il primo e unico studio su questo trattamento, molte persone avrebbero potuto decidere che non era efficace e quindi perdere interesse. In realtà, le rassegne di questo,3 e di almeno altri 14 studi, alla fine hanno mostrato che il trattamento – gli steroidi prenatali – è altamente efficace perché ha ridotto la RDS e la mortalità neonatale in oltre 3500 neonati pretermine di circa la metà.45 Si noti che i risultati del singolo studio erano abbastanza coerenti con questa scoperta.3 La conclusione corretta di quel singolo studio non è che gli steroidi prenatali non funzionano, ma che lo studio mancava di potenza sufficiente per rilevare qualsiasi cosa tranne l’effetto del trattamento più spettacolare. Circa la metà di tutti gli RCT riportati in Archives of Disease in Childhood tra il 1982 e il 1996 ha reclutato meno di 40 bambini in totale.6Trials così piccoli mancano della potenza necessaria per rilevare effetti moderati del trattamento e comportano un rischio significativo di risultati falsi negativi.6

Questo è più facile da vedere se i dati dello studio sono presentati con una stima puntuale dell’effetto, come un rischio relativo o un odds ratio, e una misura di precisione, come un intervallo di confidenza (CI). Se un trattamento non ha davvero alcun effetto, la probabilità di un cattivo risultato dovrebbe essere la stessa per i pazienti trattati e non trattati, quindi il rischio relativo e l’odds ratio tenderanno ad essere circa 1. Nell’esempio appena citato,3 l’odds ratio per RDS contro nessun RDS tra i gruppi trattati e non trattati è 0,95 (3/20 diviso 3/19), e l’IC al 95% intorno ad esso varia tra 0,17 (una riduzione dell’83%) e 5,21 (un aumento del 421%). Quindi, anche se l’odds ratio è vicino a 1, questo particolare studio non esclude né un effetto sostanzialmente benefico né uno sostanzialmente dannoso perché l’IC è ampio. Una panoramica di tutti i 15 studi fornisce un odds ratio per l’effetto degli steroidi prenatali sulla RDS di 0,53,5 con un IC al 95% molto più stretto (da 0,44 a 0,63). In altre parole, suggerisce che il trattamento con steroidi prenatali è probabile che riduca le probabilità di RDS tra il 37% e il 56%, un beneficio inequivocabilmente sostanziale, che è altamente significativo.

Quando i lettori dovrebbero concludere che un trattamento davvero non è clinicamente utile? Ancora una volta, un CI è utile, e possono essere necessari numeri sorprendentemente grandi. Nel quarto studio internazionale sulla sopravvivenza dell’infarto (ISIS-4), 58 050 pazienti con sospetto infarto miocardico sono stati assegnati in modo casuale a solfato di magnesio per via endovenosa o a placebo.7 Ci sono stati 2216 morti e 26 795 sopravvissuti nel gruppo trattato e 2103 morti e 26 936 sopravvissuti nel gruppo placebo, una differenza che dà un odds ratio per una maggiore mortalità con magnesio di 1,06, con un 95% CI di 1,00 a 1,13 (2p = 0,07). In altre parole, il magnesio, almeno come è stato dato in questo studio particolare, non era efficace perché era improbabile che ridurre la mortalità (e può anche aver aumentato fino a 13%). Allo stesso modo, i lettori possono concludere in modo affidabile che due trattamenti attivi sono equivalenti – o che qualsiasi differenza tra loro è troppo piccola per essere clinicamente importante – solo quando il campione è abbastanza grande.8

Come possono i ricercatori progettare RCT abbastanza potenti da dimostrare che non esistono differenze clinicamente importanti tra trattamento e placebo o tra due trattamenti attivi? Ciò richiede una stima preventiva delle dimensioni del campione appropriate, che può richiedere la consultazione di uno statistico, ma può essere facilmente effettuata per gli esiti dicotomici (per esempio, la sopravvivenza o la morte) utilizzando un software come Epi Info.9 Questo pacchetto software permette di calcolare i rischi relativi, gli odds ratio e l’IC al 95%, e può essere scaricato gratuitamente da Internet (http://www.soton.ac.uk/∼medstats/epiinfo/). Calcolare le dimensioni del campione quando l’esito è una variabile continua (per esempio, la pressione sanguigna o la durata della degenza) è più complicato e quasi certamente richiederà la consultazione di uno statistico. Si può aggiungere che l'”ipotesi nulla”, ossia che una differenza di trattamento sia esattamente uguale a 0 o un rischio relativo o un odds ratio esattamente uguale a 1, spesso non è né plausibile né interessante. Molto più importante è la questione se la dimensione dell’effetto del trattamento è abbastanza grande da essere di interesse clinico, o abbastanza piccola da essere ignorata. Un test di significatività convenzionale (valore p) non può fornire questa informazione; solo un intervallo che copre il vero valore della differenza di trattamento con confidenza nota può farlo.

Molti ricercatori riportano nelle loro tabelle dei risultati due colonne di medie o percentuali per i bracci di controllo e trattati dello studio. Nel primo caso, le deviazioni standard, gli errori standard o i limiti di confidenza per ogni colonna sono comunemente inclusi. Infatti, le quantità di interesse per il lettore sono le differenze tra le due colonne (o gli odds ratio per le percentuali), e queste dovrebbero sempre essere mostrate con i loro errori standard o limiti di confidenza. Questo è particolarmente importante quando i dati coinvolgono l’accoppiamento o la corrispondenza dei soggetti trattati e di controllo, come negli studi crossover, perché allora la precisione della differenza non può essere derivata dalle deviazioni standard individuali.

La presentazione dei risultati dei trial ha importanti implicazioni per i lettori, gli autori, gli editori, i referee e i pazienti. Scontare erroneamente i trattamenti come inefficaci priverà i pazienti di cure migliori. Accettare erroneamente i trattamenti come efficaci espone i pazienti a rischi inutili e spreca risorse. Possiamo tutti contribuire ad affrontare questi problemi aspettandoci, e includendo di routine, l’IC o altre misure di precisione delle stime di risultato nei riassunti dei trial e nei report, e dichiarando se e come la dimensione del campione è stata calcolata in anticipo.10 Queste misure sono state raccomandate nella dichiarazione CONSORT,11 che Archives of Disease in Childhood ha approvato (vedi nota degli editori nella referenza 6). Possiamo anche progettare e sostenere studi più grandi con il potere di rilevare effetti realisticamente moderati, piuttosto che troppo ottimisticamente grandi, del trattamento.612 Sempre più spesso, tali studi richiederanno una collaborazione multicentrica e dovrebbero essere semplici in modo che i centri più impegnati possano contribuire senza assumersi un eccessivo carico di lavoro extra.

Nota degli autori

La richiesta contenuta nelle linee guida CONSORT11 che i report degli studi clinici contino e caratterizzino tutti i pazienti non inclusi nello studio impone ulteriore lavoro ai partecipanti impegnati ed è stata criticata perché spesso di scarso valore e spesso impossibile.13 Sembra più importante descrivere le caratteristiche chiave dei pazienti quando sono stati randomizzati nello studio e riportare gli esiti in sottogruppi prespecificati, in modo che i risultati possano essere generalizzati ad altri pazienti con caratteristiche simili.

Riconoscimenti

Ringraziamo Richard Peto e l’arbitro anonimo per gli utili commenti. Il Perinatal Epidemiology Group fa parte del Medical Research Council Health Services Research Collaboration.

    1. Chalmers I

    (1985) Proposta di bandire il termine “trial negativo”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) L’assenza di prove non è prova di assenza. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroidi, antibiotici e tocolitici contro nessuna gestione di steroidi, antibiotici e tocolitici in pazienti con PROM pretermine a 25-32 settimane. Las Vegas: Proceedings of 8th annual Meeting of the Society of Perinatal Obstetricians, 1988:44:4432..

    1. Crowley PA

    (1995) Terapia corticosteroidea prenatale: una meta-analisi degli studi randomizzati, 1972 al 1994. Am J Obstet Gynecol 173:322-335.

  2. Crowley P. Corticosteroidi prima del parto pretermine. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Modulo Gravidanza e parto del database Cochrane di revisioni sistematiche. (Biblioteca Cochrane). Update Software, 1998 (aggiornato trimestralmente)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) Una revisione degli studi randomizzati controllati pubblicati negli archivi delle malattie dell’infanzia dal 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: a randomised factorial trial assessing early oral captopril, oral mononitrate, and intravenous magnesium sulphate in 58 050 patients with suspected acute myocardial infarction. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Trials to assess equivalence: the importance of rigorous methods. BMJ 313:36-39.

    1. Organizzazione Mondiale della Sanità

    (1996) Epi Info 6. (OMS, Ginevra).

    1. Grant JM

    (1995) Studi randomizzati e il British Journal of Obstetrics and Gynaecology. Requisiti minimi per la pubblicazione. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Migliorare la qualità del reporting di studi controllati randomizzati: la dichiarazione CONSORT. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Studi randomizzati controllati in medicina perinatale: I. La necessità di studi di mortalità e morbilità maggiore con una potenza adeguata. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Reporting dei trial clinici. Lancet 348:894-895.

Leave a Reply

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.