Em estatística aplicada à saúde, os erros tipo I e tipo II são as duas formas opostas de errar diante de um resultado. Confundir os dois — ou ignorar o segundo — é o motivo mais comum de ensaios mal planejados, conclusões precipitadas e tratamentos que entram (ou saem) da prática sem evidência sólida. Este artigo é um guia prático para quem precisa interpretar, planejar ou criticar um estudo clínico.
Por que importa: medicamento que funciona × paciente que sofre
Imagine dois cenários extremos. No primeiro, um laboratório brasileiro conduz um ensaio de fase III com uma vacina contra a COVID-19, similar ao que a Anvisa avaliou em 2020 e 2021. O estudo encontra uma redução de 60% no risco de doença sintomática, com p igual a 0,002. A vacina é aprovada, milhões de pessoas são imunizadas, e o desfecho é histórico. No segundo cenário, uma equipe avalia um nutracêutico popular em uma amostra pequena de 28 pacientes. O resultado vem com p igual a 0,047, "estatisticamente significativo" — e em poucos meses esse achado vira manchete, virou indicação e entrou em consultórios. Anos depois, ensaios maiores não confirmam o efeito.
Os dois cenários usam exatamente a mesma régua matemática. A diferença está em quem cometeu qual erro: o primeiro estudo provavelmente rejeitou H₀ acertando; o segundo, possivelmente rejeitou H₀ por azar amostral. Essa distinção — entre acertar e errar ao rejeitar a hipótese nula — é o que separa medicina baseada em evidência de boato com tabela. E ela tem um nome técnico: erro tipo I.
Existe um erro espelho, igualmente importante e bem menos famoso: descartar um tratamento que de fato funciona. Esse é o erro tipo II, e ele é responsável silencioso por boa parte das terapias promissoras que nunca chegam à fase final por falta de poder estatístico no ensaio piloto. Os dois andam de mãos dadas, e entender essa dupla é pré-requisito para qualquer leitura honesta de um artigo clínico.
Hipótese nula (H₀) e hipótese alternativa (H₁): traduzindo para o cenário clínico
Todo teste estatístico parte de duas afirmações antagônicas sobre o mundo. A hipótese nula, simbolizada por H₀, é a posição conservadora — "não há efeito", "as médias são iguais", "o tratamento novo não difere do controle". A hipótese alternativa, H₁, é o oposto: "existe efeito", "as médias diferem", "o tratamento muda alguma coisa".
A lógica do teste de hipóteses é semelhante à de um tribunal: H₀ é o presumido inocente. Para rejeitar, é preciso evidência forte; na ausência dela, mantemos a hipótese nula, sem dizer que ela é verdadeira. Em um ensaio randomizado típico, H₀ poderia ser "a média de pressão arterial diastólica do grupo do anti-hipertensivo novo é igual à do grupo placebo após 12 semanas". H₁ seria "as médias diferem". Após coletar os dados, a calculadora de teste t traduz a diferença observada em uma estatística e em um valor-p, e o p decide se a evidência ultrapassa o limiar combinado.
O ponto a guardar: a hipótese nula é a régua. Você nunca prova H₀ — só falha em rejeitá-la. E também nunca prova H₁ — só acumula evidência contra H₀. Toda a discussão de erros vem dessa assimetria.
A matriz 2×2 das decisões
Há quatro combinações possíveis entre o que é verdade no mundo (H₀ ou H₁) e a decisão que tomamos com base na amostra (rejeitar ou reter H₀). Duas são acertos; duas, erros.
Os dois acertos (verde) e os dois erros (vermelho) carregam consequências bem diferentes na clínica. Aprovar uma intervenção que não funciona não é o mesmo que descartar uma que funcionaria. A nossa tarefa, como estatísticos práticos, é dimensionar α e β para que essas consequências fiquem em um nível aceitável.
Erro tipo I (α): "tratamento parece funcionar e não funciona"
O erro tipo I ocorre quando rejeitamos H₀ mesmo ela sendo verdadeira. Em linguagem clínica: o ensaio diz que o medicamento é eficaz, e na verdade ele não é. A probabilidade tolerada para esse erro é o nível de significância α, fixado antes da coleta. A convenção universal é α = 0,05, ou seja, aceitamos 5% de chance de um falso positivo em cada teste.
As consequências do erro tipo I são amplas. Pacientes recebem um tratamento sem benefício, mas com possíveis eventos adversos. O sistema público desembolsa recursos com algo inerte. Pesquisadores e médicos perdem energia replicando o falso achado. A história está cheia de exemplos: o rofecoxib (Vioxx), aprovado em 1999 e retirado em 2004 após sinais de eventos cardiovasculares, e diversos antiarrítmicos da década de 80 que mostraram benefício em ensaios pequenos e mataram mais pacientes do que salvaram em estudos maiores. O ponto comum: o sinal inicial era falso positivo ou inflado.
Manter α baixo é uma forma de proteger a sociedade contra falsas descobertas. Mas há um preço, que veremos a seguir.
Erro tipo II (β): "tratamento funciona e diz que não funciona"
O erro tipo II é o espelho do anterior: H₁ é verdadeira (o tratamento funciona), mas falhamos em rejeitar H₀ (o teste não detecta o efeito). A probabilidade desse erro é β, e o impacto clínico costuma ser igualmente grave — só que menos visível.
Um ensaio com β alto é um ensaio underpowered. Ele recruta poucos pacientes, mede um desfecho com muita variabilidade ou usa um teste estatístico inadequado, e termina com p maior que 0,05. A leitura ingênua é "o tratamento não funciona". A leitura correta é "não temos evidência neste estudo de que funcione". A frase clássica, atribuída a Carl Sagan e popularizada por Altman e Bland em 1995, resume o ponto: absence of evidence is not evidence of absence — ausência de evidência não é evidência de ausência.
Na prática brasileira, o erro tipo II aparece em pesquisas de mestrado e doutorado feitas com amostras de conveniência, com 20 ou 30 pacientes, comparando médias de variáveis fisiológicas. O p quase sempre dá maior que 0,05 — não porque o tratamento não funcione, mas porque o estudo era, desde o início, incapaz de detectar um efeito de tamanho razoável. Quem lê o trabalho sem cuidar dessa nuance descarta hipóteses promissoras e empobrece o conhecimento da área.
Poder do teste (1−β): a métrica esquecida nos ensaios clínicos brasileiros
O complemento de β tem nome próprio: poder estatístico, ou 1 − β. É a probabilidade de detectar o efeito quando ele realmente existe. Um estudo com 80% de poder, por exemplo, encontrará o efeito em 4 de cada 5 réplicas — supondo que o efeito verdadeiro tenha o tamanho que foi assumido no cálculo. O poder cresce com três coisas: tamanho da amostra, magnitude do efeito real e precisão da medida.
O limiar de 80% não é mágico — é convenção desde o trabalho seminal de Jacob Cohen em 1988. Significa aceitar que, em 20% das vezes, um estudo com aquele tamanho não encontrará o efeito esperado. Para ensaios pivotais regulatórios, a Anvisa e o ICH E9 recomendam buscar 90%. Para estudos exploratórios, 70% pode ser tolerável. O problema é que muitos artigos brasileiros simplesmente não relatam o poder. O CONSORT 2010, padrão internacional para relatar ensaios randomizados, exige descrição do cálculo amostral no item 7a — e o item costuma vir em branco ou maquilado.
O trade-off entre α e β: por que diminuir um aumenta o outro (a menos que…)
Para um tamanho amostral fixo, α e β competem. Se você reduz α de 0,05 para 0,01 para ficar mais rigoroso contra falsos positivos, exige uma evidência maior para rejeitar H₀, e com isso deixa de detectar efeitos reais menores: β sobe. Se afrouxa α para 0,10, capta efeitos menores com mais frequência (β cai), mas aumenta os falsos positivos. Só há uma maneira de melhorar os dois simultaneamente: aumentar n.
Geometricamente, é fácil ver: as duas curvas representam as distribuições da estatística do teste sob H₀ (azul) e sob H₁ (rosa). O ponto vertical é o valor crítico — a partir dele, rejeitamos H₀. A área vermelha sob a curva azul à direita é α; a área amarela sob a curva rosa à esquerda é β. Deslocar o valor crítico para a direita encolhe α e infla β. Deslocar para a esquerda faz o contrário. Aumentar n estreita ambas as curvas, afastando-as no eixo, e é a única forma de reduzir α e β simultaneamente.
Como calcular n para garantir 80% de poder
O cálculo amostral começa pela pergunta clínica: que diferença vale a pena detectar? Em um ensaio comparando pressão arterial entre dois grupos, talvez você precise capturar uma redução de 5 mmHg na média da pressão sistólica. Suponha que o desvio padrão esperado em cada grupo seja 15 mmHg. O tamanho do efeito padronizado de Cohen é d = 5 ÷ 15 ≈ 0,33 — um efeito pequeno-moderado.
Para detectar esse efeito com 80% de poder, α = 0,05 (bicaudal) e teste t de duas amostras independentes, a fórmula clássica devolve aproximadamente 144 pacientes por grupo — total de 288. Reduzir esse cálculo para 80 pacientes totais, como aparece em muitos protocolos de iniciação científica, leva o poder real para algo em torno de 35%, ou seja, mais probabilidade de erro tipo II do que de acerto. A nossa calculadora de tamanho amostral resolve essa conta em segundos, e a calculadora de teste t permite simular o que aconteceria com o p caso o efeito real fosse menor que o esperado.
Vale lembrar: o tamanho de efeito assumido no cálculo precisa ser plausível, não otimista. Inflar d no cálculo para reduzir n é uma forma comum de auto-engano. Use estimativas de meta-análises ou estudos piloto, e sempre faça análises de sensibilidade — "e se o efeito real for metade do estimado, qual o meu poder?" Para desfechos binários (cura sim/não, evento sim/não), use a calculadora de proporção ou o teste qui-quadrado; para experimentos comparando taxas de conversão em interfaces digitais, a matemática é a mesma do teste A/B usado em marketing.
Por que 5% e 80%? E quando ajustar (Bonferroni, sequencial, equivalência)
O valor 5% para α vem de uma sugestão informal de Ronald Fisher em 1925, repetida tantas vezes que virou padrão. Não há nada de sagrado nele. Em pesquisa básica exploratória, alguns campos usam α = 0,10. Em física de partículas, exige-se 5 sigma — algo como 0,0000003. Em ensaios clínicos pivotais, 0,05 segue como padrão regulatório, mas as agências consideram requisitos adicionais: replicação, plausibilidade biológica, magnitude clínica do efeito.
O 80% para poder também é convencional, vindo de Cohen. A escolha entre 80% e 90% reflete o quanto o desfecho é crítico e o quanto é caro errar por tipo II. Ensaios sequenciais, em que análises interinas decidem se o estudo continua ou para por eficácia/futilidade, usam ajustes específicos para preservar α global (correções de O'Brien-Fleming, Pocock).
Há um caso especial: ensaios de equivalência ou não inferioridade. Neles, a pergunta clínica é "o tratamento novo é tão bom quanto o padrão dentro de uma margem aceitável". A hipótese nula muda — passa a ser "o novo é pior por mais que a margem" — e a interpretação de erros tipo I e II se inverte em relação ao ensaio de superioridade. É comum ver protocolos mal escritos que misturam os dois quadros.
Comparações múltiplas: o erro tipo I acumulado
Se você roda um único teste com α = 0,05, sua chance de falso positivo é 5%. Se roda 20 testes independentes sobre os mesmos dados — coisa comum em ensaios com múltiplos endpoints, subgrupos e tempos —, a chance de pelo menos um falso positivo é 1 − (0,95)²⁰ ≈ 64%. Em outras palavras: rodando bastante teste, a probabilidade de "achar alguma coisa" só por acaso vira a regra, não a exceção. Esse fenômeno é a inflação do erro tipo I familiar.
As correções clássicas tentam controlar isso. A correção de Bonferroni divide α pelo número de testes: para manter 5% global em 20 endpoints, cada teste passa a usar 0,0025. É simples e conservador — diminui muito o poder. O método de Holm ordena os p-valores e aplica Bonferroni de forma escalonada, ganhando algum poder. O controle do FDR (False Discovery Rate) de Benjamini-Hochberg, padrão em estudos genômicos e em ômicas, controla a fração esperada de falsos positivos entre as descobertas, não a probabilidade de ocorrer pelo menos um — abordagem mais permissiva e útil quando muitos efeitos verdadeiros são esperados.
O CONSORT exige declarar endpoints primários e secundários no protocolo. Um RCT decente fixa um endpoint primário (ou uma família pequena com correção pré-especificada) e relata o resto como exploratório, sem fazer correção formal mas também sem usar como base para decisões regulatórias. Ensaios que mudam o endpoint primário após ver os dados — prática conhecida como HARKing ou outcome switching — destroem a integridade do controle de α.
Boas práticas em estudos clínicos brasileiros
Quem planeja ou avalia ensaios clínicos no Brasil tem três referências obrigatórias: o CONSORT 2010 (Schulz, Altman e Moher), checklist de 25 itens para o relato de ensaios randomizados; a ICH E9, diretriz internacional para princípios estatísticos em estudos clínicos, adotada pela Anvisa; e a RDC nº 9/2015 da Anvisa, que regulamenta a execução de ensaios clínicos no país. Como prática mínima, recomendamos:
- Pré-especificar o protocolo: registre o estudo no ReBEC ou em registro internacional (ClinicalTrials.gov) antes de iniciar o recrutamento. Inclua endpoint primário, secundários, plano de análise e cálculo amostral.
- Calcular tamanho amostral honestamente: use estimativas plausíveis de efeito, justifique escolhas e relate o cálculo no artigo final. Ferramentas como a nossa calculadora de tamanho amostral ajudam a explorar cenários.
- Cegamento (blinding): triplo cego — paciente, avaliador e estatístico — é o padrão-ouro para reduzir vieses que inflam falsos positivos.
- Análise por intenção de tratar: incluir todos os randomizados, mesmo os que abandonaram, preserva o equilíbrio dos grupos e dá uma estimativa conservadora do efeito.
- Relatar IC além do p: o intervalo de confiança transmite a magnitude e a precisão do efeito. Use a nossa calculadora de teste t para gerar ambos.
- Avaliação de risco de viés: para ensaios randomizados, aplique a ferramenta RoB 2.0 de Sterne e colegas; ela cobre processos de randomização, desvios de protocolo, dados ausentes, medição do desfecho e seleção do resultado relatado.
Quem se acostuma a esse ciclo — protocolo registrado, cálculo amostral honesto, análise pré-especificada, relato CONSORT — produz pesquisa em que rejeitar ou reter H₀ significa algo. E isso é a base para que o sistema de saúde tome decisões sobre incorporar ou rejeitar tecnologias com algum grau de confiança.
Antes de rodar um teste, pergunte-se: qual o tamanho de efeito que faria diferença clínica? Qual o n necessário para 80% de poder? Esses dois números, decididos antes da coleta, são mais importantes que o p ao final. Sem eles, o p é só um número sem contexto.
Perguntas frequentes
O que é mais grave: erro tipo I ou tipo II?
Depende do contexto clínico. Em fases iniciais de aprovação de um medicamento, o erro tipo I — aprovar algo que não funciona — costuma ser mais grave, pois expõe pacientes a tratamentos inúteis e com possíveis efeitos adversos. Já em ensaios de triagem ou em doenças sem alternativa terapêutica, o erro tipo II — descartar um tratamento útil — pode custar vidas. A escolha de α e β deve refletir essa assimetria.
Por que ensaios clínicos calculam poder antes de começar?
Porque um estudo sem poder suficiente quase certamente vai retornar p > 0,05, mesmo quando o tratamento funciona. Calcular o tamanho amostral para garantir 80% ou 90% de poder evita gastar recursos e expor pacientes a um experimento que, por construção, nasce incapaz de detectar o efeito procurado. É uma exigência ética e regulatória da ICH E9 e do CONSORT.
Como Bonferroni corrige o erro tipo I em endpoints múltiplos?
Bonferroni divide o α global pelo número de testes. Se você quer manter o α familiar em 5% e tem cinco endpoints primários, cada teste passa a usar 0,05 ÷ 5 = 0,01 como limite. O método é conservador mas garante que a probabilidade de pelo menos um falso positivo no conjunto não ultrapasse 5%. Alternativas como Holm e FDR (Benjamini-Hochberg) preservam mais poder, especialmente quando muitos efeitos verdadeiros são esperados.
Se p > 0,05, posso concluir que o tratamento não funciona?
Não. Um p alto significa apenas que os dados são compatíveis com a hipótese nula, não que ela é verdadeira. Ausência de evidência não é evidência de ausência. Para concluir que o tratamento não tem efeito clinicamente relevante, é preciso um estudo de equivalência ou de não inferioridade, com tamanho amostral planejado para essa pergunta específica.
Qual o poder mínimo aceitável em um ensaio brasileiro?
A convenção internacional, adotada pela Anvisa e pela ICH E9, é 80%. Em ensaios pivotais de fase III, costuma-se buscar 90%. Valores abaixo de 80% são tolerados apenas em estudos exploratórios ou em condições muito específicas, com justificativa formal no protocolo registrado no ReBEC.
Como o tamanho amostral afeta o erro tipo II?
Quanto maior a amostra, menor o erro padrão da estimativa e mais estreitas as distribuições de H₀ e H₁, o que diminui a sobreposição entre elas e reduz β. Em termos práticos, dobrar a amostra reduz substancialmente β para um mesmo tamanho de efeito; quadruplicar pode levar o poder de 50% para mais de 95%. Use a nossa calculadora de tamanho amostral para simular.
Qual a diferença entre α e o valor-p?
α é o limite que você define antes de ver os dados — a probabilidade de erro tipo I que está disposto a tolerar, geralmente 5%. O valor-p é calculado a partir dos dados observados e representa a probabilidade de obter um resultado tão extremo quanto o seu se H₀ fosse verdadeira. Você rejeita H₀ quando o valor-p é menor que α.
Referências
- Schulz KF, Altman DG, Moher D, for the CONSORT Group. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ. 2010;340:c332.
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2ª ed. Hillsdale: Lawrence Erlbaum; 1988.
- International Conference on Harmonisation. ICH Harmonised Tripartite Guideline E9: Statistical Principles for Clinical Trials. 1998.
- Anvisa. RDC nº 9, de 20 de fevereiro de 2015: dispõe sobre o regulamento para a realização de ensaios clínicos com medicamentos no Brasil. Brasília: Anvisa; 2015.
- Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ. 2019;366:l4898.
- Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485.
- Bussab WO, Morettin PA. Estatística Básica. 9ª ed. São Paulo: Saraiva; 2017.