Distinguindo entre “nenhuma evidência de efeito” e “evidência de nenhum efeito” em julgamentos controlados aleatórios e outras comparações | Arquivos de Doenças na Infância

Se um tribunal não condenar um réu por causa de provas incompletas, isso estabelece a sua inocência para além de qualquer dúvida? Não necessariamente. De facto, na Escócia, se subsistir incerteza suficiente, o tribunal pode dar um veredicto de “não provado” em vez de “inocente”. Se um julgamento controlado randomizado (ECR) não mostrar uma diferença significativa entre o tratamento e o grupo de controle, isso prova que o tratamento não tem nenhum efeito clínico útil? Mais uma vez, não necessariamente. O tratamento pode funcionar, mas o estudo pode não ter sido capaz de prová-lo.1 Apesar disso, muitos desses estudos “negativos”,12 incluindo muitos publicados nesta revista, podem ser erroneamente tomados como evidência de que o tratamento não é clinicamente útil.

Por exemplo, em um estudo de TCR de mulheres em risco de parto prematuro que não foi publicado como um relatório completo,3 a síndrome do desconforto respiratório (SDR) ocorreu em três dos 23 bebês nascidos no grupo tratado e três dos 22 bebês nascidos no grupo não tratado. A diferença não é significativa (2p > 0,9). Se este tivesse sido o primeiro e único estudo deste tratamento, muitas pessoas poderiam ter decidido que ele não era eficaz e assim perderam o interesse. Na verdade, visões gerais deste estudo,3 e pelo menos 14 outros estudos, eventualmente mostraram que o tratamento – esteróides pré-natais – é altamente eficaz porque reduziu a SDR e a mortalidade neonatal em mais de 3500 bebés pré-termo em cerca de metade.45 Note que os resultados do estudo único foram bastante consistentes com esta descoberta.3 A conclusão correcta deste estudo único não é que os esteróides pré-natais não funcionam, mas que o estudo não teve poder suficiente para detectar nada além do efeito de tratamento mais espectacular. Aproximadamente metade de todos os TCR relatados nos Arquivos de Doenças na Infância entre 1982 e 1996 recrutaram menos de 40 crianças no total.6Triais tão pequenos quanto este não têm o poder de detectar efeitos moderados do tratamento e trazem um risco significativo de resultados falsos negativos.6

É mais fácil ver se os dados do estudo são apresentados com uma estimativa pontual do efeito, como um risco relativo ou uma odds ratio, e uma medida de precisão, como um intervalo de confiança (IC). Se um tratamento realmente não tem efeito, a probabilidade de um mau resultado deve ser a mesma para pacientes tratados e não tratados, então o risco relativo e o odds ratio tenderão a ser de cerca de 1. No exemplo citado,3 o odds ratio para RDS v no RDS entre grupos tratados e não tratados é de 0,95 (3/20 dividido por 3/19), e o IC 95% em torno dele varia entre 0,17 (uma redução de 83%) e 5,21 (um aumento de 421%). Assim, embora o odds ratio seja próximo de 1, este ensaio particular não exclui nem um efeito substancialmente benéfico nem um efeito substancialmente prejudicial, uma vez que o IC é amplo. Uma visão geral de todos os 15 estudos dá um odds ratio para o efeito dos esteróides pré-natais na SDR de 0,53,5 com um IC 95% mais estreito (0,44 a 0,63). Em outras palavras, sugere que o tratamento com esteróides pré-natais é susceptível de reduzir as probabilidades da SDR entre 37% e 56%, um benefício inequivocamente substancial, que é altamente significativo.

Quando os leitores devem concluir que um tratamento realmente não é clinicamente útil? Mais uma vez, um IC é útil, e surpreendentemente podem ser necessários grandes números. No quarto estudo internacional de sobrevida por infarto (ISIS-4), 58 050 pacientes com suspeita de infarto do miocárdio foram alocados aleatoriamente para sulfato de magnésio intravenoso ou placebo.7 Houve 2216 mortes e 26 795 sobreviventes no grupo tratado e 2103 mortes e 26 936 sobreviventes no grupo placebo, uma diferença que dá uma razão de probabilidade de aumento da mortalidade com magnésio de 1,06, com IC 95% de 1,00 para 1,13 (2p = 0,07). Em outras palavras, o magnésio, pelo menos como foi dado neste estudo em particular, não foi eficaz porque era pouco provável que reduzisse a mortalidade (e pode até tê-la aumentado em até 13%). Da mesma forma, os leitores só podem concluir de forma confiável que dois tratamentos ativos são equivalentes – ou que qualquer diferença entre eles é muito pequena para ser clinicamente importante – quando a amostra é suficientemente grande.8

Como os pesquisadores podem projetar TCLE suficientemente poderosos para mostrar que não existem diferenças clinicamente importantes entre tratamento e placebo ou entre dois tratamentos ativos? Isso requer uma estimativa prévia de tamanhos de amostra apropriados, o que pode requerer consulta a um estatístico, mas pode ser facilmente feito para resultados dicotômicos (por exemplo, sobrevivência ou morte) usando softwares como o Epi Info.9 Este pacote de software permite o cálculo de riscos relativos, odds ratios e IC 95%, e pode ser baixado gratuitamente da Internet (http://www.soton.ac.uk/∼medstats/epiinfo/). O cálculo do tamanho das amostras quando o resultado é uma variável contínua (por exemplo, pressão arterial ou tempo de permanência) é mais complicado e quase certamente exigirá a consulta a um estatístico. Pode-se acrescentar que a “hipótese nula”, no sentido de que uma diferença de tratamento é exatamente igual a 0 ou um risco relativo ou uma razão de chances exatamente igual a 1, muitas vezes não é nem plausível nem interessante. Muito mais importante é a questão se o tamanho do efeito do tratamento é suficientemente grande para ser de interesse clínico, ou suficientemente pequeno para ser ignorado. Um teste de significância convencional (valor p) não pode fornecer esta informação; apenas uma faixa que cobre o valor real da diferença de tratamento com confiança conhecida pode fazê-lo.

Muitos investigadores relatam em suas tabelas de resultados duas colunas de meios ou porcentagens para os braços de controle e tratamento do estudo. No primeiro caso, os desvios padrão, erros padrão ou limites de confiança para cada coluna são normalmente incluídos. De facto, as quantidades de interesse para o leitor são as diferenças entre as duas colunas (ou odds ratios para percentagens), e estas devem sempre ser mostradas com os seus erros padrão ou limites de confiança. Isto é especialmente importante quando os dados envolvem emparelhamento ou correspondência de sujeitos tratados e controle, como em estudos cruzados, pois então a precisão da diferença não pode ser derivada dos desvios padrão individuais.

A apresentação dos resultados dos estudos tem implicações importantes para leitores, autores, editores, árbitros e pacientes. Descontar tratamentos erroneamente como ineficazes irá privar os pacientes de melhores cuidados. Aceitar tratamentos erroneamente como eficazes expõe os pacientes a riscos desnecessários e desperdiça recursos. Todos nós podemos ajudar a resolver esses problemas esperando, e rotineiramente incluindo, IC ou outras medidas da precisão das estimativas de resultados em resumos e relatórios de estudos, e declarando se e como o tamanho da amostra foi calculado com antecedência.10 Essas medidas foram recomendadas na declaração do CONSORT,11 que o Archives of Disease in Childhood endossou (veja a nota dos editores na referência 6). Também podemos projetar e apoiar estudos maiores com o poder de detectar efeitos realisticamente moderados, em vez de excessivamente grandes, do tratamento.612 Cada vez mais, tais estudos exigirão colaboração multicêntrica e devem ser simples, para que os centros ocupados possam contribuir sem assumir uma carga muito grande de trabalho extra.

Nota dos autores

A exigência nas diretrizes do CONSORT11 de que os relatos de estudos clínicos devem contar e caracterizar todos os pacientes não incluídos no estudo impõe mais trabalho aos participantes ocupados e tem sido criticada como sendo frequentemente de pouco valor e frequentemente impossível.13 Parece mais importante descrever características-chave dos pacientes quando randomizados no estudo e relatar resultados em subgrupos pré-definidos, para que os resultados possam ser generalizados para outros pacientes com características semelhantes.

Administrações

Agradecemos a Richard Peto e ao árbitro anônimo por comentários úteis. O Grupo de Epidemiologia Perinatal faz parte do Conselho de Pesquisa Médica Colaboração em Pesquisa dos Serviços de Saúde.

    1. Chalmers I

    (1985) Proposta para banir o termo “ensaio negativo”. BMJ 290:1002.

    1. Altman DG,
    2. Bland MJ

    (1995) Ausência de evidência não é evidência de ausência. BMJ 311:485.

  1. Parsons MT, Sobel D, Cummiskey K, Constantine L, Roitman J.Steroid, antibiótico e tocolítico versus nenhum esteróide, antibiótico e manejo tocolítico em pacientes com PROM pré-termo com 25-32 semanas. Las Vegas: Anais da 8ª Reunião Anual da Sociedade de Obstetras Perinatais, 1988:44:4432..

    1. Crowley PA

    (1995) Antenatal corticosteroid therapy: a meta-analysis of the randomized trials, 1972 to 1994. Am J Obstet Gynecol 173:322-335.

  • Crowley P. Corticosteróides antes do parto prematuro. In: Neilsen JP, Crowther CA, Hodnett ED, Hofmeyr GJ, eds. Módulo de gravidez e parto da base de dados Cochrane de revisões sistemáticas. (Biblioteca Cochrane). Update Software, 1998 (atualizado trimestralmente)..

    1. Campbell H,
    2. Surry SAM,
    3. Royle EM

    (1998) Uma revisão de ensaios controlados aleatórios publicados em arquivos de doenças na infância de 1982-96. Arch Dis Child 79:192-197.

    1. ISIS-4 (Fourth International Study of Infarct Survival) Collaborative Group

    (1995) ISIS-4: um ensaio factorial randomizado avaliando o captopril oral precoce, mononitrato oral e sulfato de magnésio intravenoso em 58 050 pacientes com suspeita de infarto agudo do miocárdio. Lancet 345:669-685.

    1. Jones B,
    2. Jarvis P,
    3. Lewis JA,
    4. Ebbutt AF

    (1996) Ensaios para avaliar a equivalência: a importância de métodos rigorosos. BMJ 313:36-39.

    1. Organização Mundial de Saúde

    (1996) Epi Info 6. (OMS, Genebra).

    1. Grant JM

    (1995) Randomised trials and the British Journal of Obstetrics and Gynaecology. Requisitos mínimos para publicação. Br J Obstet Gynaecol 102:849-850.

    1. Begg C,
    2. Cho M,
    3. Eastwood S,
    4. Horton R,
    5. Moher D,
    6. Olkin I,
    7. et al.

    (1996) Improving the quality of reporting of randomized controlled trials: the CONSORT statement. JAMA 276:637-639.

    1. Tarnow-Mordi WO,
    2. Brocklehurst P

    (1997) Ensaios controlados aleatórios em medicina perinatal: I. A necessidade de estudos de mortalidade e morbidade maior com poder adequado. Br J Obstet Gynaecol 104:763-765.

    1. Peto R

    (1996) Relato de ensaios clínicos. Lanceta 348:894-895.

  • Leave a Reply

    Deixe uma resposta

    O seu endereço de email não será publicado.