Análise Estatística na Literatura Médica
A correta análise estatística dos dados é muito importante nos ensaios clínicos. Surpreendentemente, entretanto, as análises estatísticas realizadas são frequentemente omitidas dos ensaios clínicos e outros artigos publicados (Bahar et al., 2019). O tamanho da amostra é importante, já que amostras pequenas tendem a mostrar mais diferenças significativas entre os grupos de tratamento. Além disso, a quantidade e as características dos dados são de extrema importância para a escolha dos testes estatísticos corretos.
Entendendo p
A compreensão do significado de p é fundamental para entender e interpretar testes estatísticos. Em termos simples, todos os ensaios clínicos começam com a hipótese nula de que os tratamentos são equivalentes. Se os resultados do ensaio indicam que os resultados são diferentes, então um teste estatístico é realizado para verificar se a diferença é devida ao acaso. Se o acaso não for uma explicação provável para a diferença, a hipótese nula de que os tratamentos são equivalentes é rejeitada.
O valor de p representa a probabilidade de que uma diferença tão grande quanto a observada pode ser devida ao acaso e de que os tratamentos são na verdade equivalentes.
O erro de acreditar que existe uma diferença entre os tratamentos, quando na verdade essa diferença não existe e as diferenças observadas são devidas ao acaso, é chamado de erro tipo I ou erro alfa.
A diferença foi estatisticamente significativa (p= 0,05) significa que a probabilidade de que uma diferença tão grande quanto a observada seja devida ao acaso é de 1 em 20 e que o autor aceita esse nível de probabilidade como suficientemente improvável e por isso rejeita a hipótese nula de que os tratamentos são equivalentes.
Inversamente, a frase a diferença não foi estatisticamente significativa (p=0,10) significa que a probabilidade de que uma diferença tão grande quanto a observada seja devida ao acaso é de 1 em 10 e que o autor não considera esse nível de probabilidade como suficientemente improvável para rejeitar a hipótese nula de que os tratamentos são equivalentes.
É importante lembrar que não significativo significa que uma diferença não foi provada; não significa que não exista diferença.
A aceitação de um nível de significância de 0,05 como o limite para rejeitar a hipótese nula é uma tradição baseada em padrões de controle de qualidade e não é uma verdade absoluta (Bigby and Gadenne, 1996). Os autores devem indicar os testes estatísticos que foram utilizados para comparar os resultados. Dizer apenas que a diferença foi estatisticamente significativa (p < 0,050) não constitui uma descrição adequada da estatística utilizada.
O Teste t
O teste t é o teste mais comumente utilizado na literatura biomédica, e é usado para determinar se a diferença entre as médias de duas amostras é devida apenas ao acaso. É importante lembrar que o teste t a um nível de significância de 0,05 é desenhado para comparar as diferenças nas médias de apenas duas amostras ou populações.
Outras limitações do teste t
O teste t deve ser usado para comparar as médias de dados que têm uma distribuição normal. Além disso, ele tem também as seguintes limitações:
- os dados analisados pelo teste t devem ser de tamanho suficiente;
- não devem conter outliers;
- a variabilidade (desvio-padrão) dos dois grupos de tratamento deve ser similar;
- na maioria dos casos, um teste t bilateral é apropriado;
- quando se utiliza um teste t unilateral, as razões devem ser especificadas;
- o teste t pareado deve ser utilizado para analisar os efeitos de dois tratamentos nos mesmos pacientes (estudo crossover).
Erros comuns no uso do teste t
Sendo o teste estatístico mais comumente empregado, não é surpreendente que ele seja também frequentemente utilizado de modo inadequado. Os erros mais comuns são utilizá-lo para analisar:
- dados sem distribuição normal;
- dados com variabilidades diferentes nas amostras;
- dados pareados por meio do teste t não-pareado;
- as médias de mais de duas amostras.
O teste t não deve ser utilizado para analisar dados que apresentam variabilidade (desvio-padrão) muito diferente entre os grupos de tratamento. Também não deve ser usado com conjuntos de dados muito pequenos porque é impossível verificar a normalidade da sua distribuição. Nesses casos, pode ser usado o teste U de Mann-Whitney, que é o equivalente ao teste t para distribuições não normais e dados não pareados. Para dados pareados, pode ser usado o teste de Wilcoxon. Os testes de médias para mais de dois grupos podem ser realizados com diferentes formas de análise de variância.
Qui-quadrado
É o teste mais utilizado para analisar dados categóricos (ex.: boa resposta/sem resposta ao tratamento). Entretanto, para conjuntos pequenos de dados (20-40 pacientes) deve ser usada a correção de Yates e o qui-quadrado não deve ser usado para analisar ensaios com menos de 20 pacientes ou quando o número de pacientes em qualquer das categorias for menor do que 5. Nesses casos, deve ser usado o teste exato de Fisher. O teste qui-quadrado é usado para analisar dados categóricos não pareados e o teste de McNemar é usado para dados pareados.
As tabelas de contingência podem ser facilmente modificadas para comparar mais de dois tratamentos ou mais de dois desfechos.
Exemplo de tabela de contingência, cálculo do qui-quadrado e da correção de Yates (Bigby and Gadenne, 1996):
Assim como o teste t, o qui-quadrado é frequentemente usado de modo incorreto em ensaios clínicos publicados.
Gore, Jones e Rytter (1977) numa análise de artigos publicados no British Medical Journal verificaram uso incorreto do teste qui-quadrado em 12 de 62 trabalhos!
Erros comuns no uso do teste qui-quadrado
Os erros mais comuns em relação ao qui-quadrado são:
- falha de usar a correção de Yates para amostras pequenas;
- omissão de uma hipótese clara a ser testada;
- falta de consideração dos graus de liberdade;
- uso incorreto do teste para estudar dados pareados.
Conclusão
Ao analisarmos a qualidade de um ensaio clínico publicado, devemos estar atentos ao uso correto das análises estatísticas e à sua interpretação adequada.
Referências
Bahar, Burak, Stefan E Pambuccian, Güliz A Barkan, and Yasemin Akdaş. 2019. “The Use and Misuse of Statistical Methods in Cytopathology Studies: Review of 6 Journals.” Laboratory Medicine 50 (1): 8–15. https://doi.org/10.1093/labmed/lmy036.
Bigby, Michael, and Anne-Sophie Gadenne. 1996. “Understanding and Evaluating Clinical Trials.” Journal of the American Academy of Dermatology 34 (4): 555–90. https://doi.org/10.1016/S0190-9622(96)80053-3.
Gore, S. M., I. G. Jones, and E. C. Rytter. 1977. “Misuse of Statistical Methods: Critical Assessment of Articles in BMJ from January to March 1976.” Br Med J 1 (6053): 85–87. https://doi.org/10.1136/bmj.1.6053.85.