Por que calcular o tamanho de amostra antes do teste A/B?

Porque sem um alvo definido você não sabe quando parar. Definir a amostra antes evita parar cedo demais (falso positivo) ou tarde demais, e torna o resultado confiável.

O que é o efeito mínimo detectável (MDE)?

É a menor melhoria que vale a pena detectar. Quanto menor o efeito que você quer captar, maior a amostra necessária.

Quanto tempo um teste A/B deve durar?

Tempo suficiente para atingir o tamanho de amostra calculado e, no mínimo, uma a duas semanas inteiras, para cobrir as variações entre dias da semana.

Calculadora de Tamanho de Amostra para Teste A/B

Por que calcular a amostra antes do teste

O erro mais comum em testes A/B não está na conta final — está em começar sem um plano. Quem inicia um teste sem definir o tamanho de amostra cai sempre em uma de duas armadilhas. Ou olha o painel todo dia e para no primeiro momento em que aparece "significativo", o que infla enormemente a chance de um falso positivo. Ou deixa rodando para sempre, gastando tráfego em um teste que nunca conclui.

Calcular o tamanho de amostra antes resolve os dois problemas. Você fixa uma meta — "preciso de 12.000 visitantes por variante" — e só toma a decisão quando atinge esse número. O resultado passa a ser confiável porque o critério de parada foi definido antes de ver qualquer dado.

Como a calculadora funciona

O tamanho de amostra de um teste A/B depende de quatro ingredientes. Mexa em qualquer um deles e o número muda:

Taxa de conversão atual — o ponto de partida. Taxas muito baixas exigem amostras maiores.
Efeito mínimo detectável (MDE) — a menor melhoria que você quer ser capaz de enxergar. Quanto menor, maior a amostra.
Nível de confiança — controla o risco de falso positivo. 95% é o padrão.
Poder estatístico — controla o risco de falso negativo. 80% é o padrão.

A calculadora combina esses valores na fórmula clássica de comparação de duas proporções (baseada na aproximação normal), considerando os dois grupos de tamanho igual:

n por variante = [ z_α·√(2·p̄·q̄) + z_β·√(p₁·q₁ + p₂·q₂) ]² ÷ (p₂ − p₁)² p₁ é a taxa atual, p₂ a taxa-alvo, q = 1 − p, p̄ a média das duas; z_α e z_β vêm da confiança e do poder.

O que é poder estatístico

Se o nível de confiança protege contra "ver" um efeito que não existe, o poder estatístico protege contra o oposto: não ver um efeito que existe. O poder é a probabilidade de o teste detectar uma melhoria verdadeira.

O padrão de mercado é 80%. Isso significa que, se a sua variante realmente é melhor na magnitude que você definiu, o teste vai detectar isso em 80% das vezes — e vai falhar (falso negativo) em 20%. Subir para 90% de poder dá mais segurança, mas exige uma amostra bem maior. Para a maioria dos times, 80% é o equilíbrio adequado.

Confiança e poder

Confiança 95% e poder 80% são as configurações de partida para quase todo teste A/B. Só mude se tiver um motivo claro: mais confiança quando o erro custa caro, mais poder quando perder um ganho real é inaceitável.

Como escolher o efeito mínimo detectável

O MDE é a decisão mais estratégica — e a que mais confunde. Ele responde: "qual é a menor melhoria que ainda vale a pena para o meu negócio?"

Você pode informá-lo de duas formas:

Relativo: um aumento percentual sobre a taxa atual. Um MDE relativo de 10% sobre uma conversão de 5% mira em 5,5%.
Absoluto: um aumento em pontos percentuais. Um MDE absoluto de 1 ponto sobre 5% mira em 6%.

A tentação é escolher um MDE pequeno para "não perder nada". O problema é que detectar melhorias minúsculas custa caro: reduzir o MDE pela metade quadruplica a amostra necessária. Seja realista — mire na menor melhoria que justificaria, de fato, implementar a mudança.

Quanto tempo deixar o teste rodando

O tamanho de amostra responde "quantas pessoas". A duração responde "por quantos dias" — basta dividir a amostra total pelo tráfego diário. Mas há uma regra extra: todo teste deve rodar por pelo menos uma a duas semanas inteiras, mesmo que a amostra seja atingida antes.

O motivo é que o comportamento muda ao longo da semana. Quem visita um site na segunda-feira de manhã não é o mesmo público da sexta à noite. Encerrar um teste depois de três dias corridos pode capturar só um "tipo" de visitante e distorcer o resultado. Sempre feche o teste no fim de semanas completas.

Exemplo resolvido

Uma loja converte hoje 5% dos visitantes e quer detectar uma melhoria relativa de 10% (ou seja, chegar a 5,5%), com 95% de confiança e 80% de poder, em um teste bicaudal.

Taxa atual p₁ = 0,05; taxa-alvo p₂ = 0,05 × 1,10 = 0,055.
Com z_α ≈ 1,96 (95%, bicaudal) e z_β ≈ 0,84 (80% de poder), a fórmula resulta em cerca de 31.234 visitantes por variante.
Amostra total ≈ 62.468 visitantes (somando A e B).
Com 800 visitantes por dia, o teste deve rodar ≈ 79 dias — cerca de 11 semanas.

Esse número costuma surpreender, e é exatamente por isso que vale calculá-lo antes: melhorias pequenas em taxas baixas exigem muito tráfego. Use o botão "Preencher com exemplo" para ver o cálculo na calculadora.

Perguntas frequentes

Por que preciso calcular a amostra antes do teste?

Porque sem um alvo definido você não sabe quando parar. Fixar a amostra antes evita o "peeking" — parar no primeiro resultado favorável — que transforma um teste de 5% de falso positivo em algo muito menos confiável.

O que acontece se a taxa de conversão for muito baixa?

Quanto menor a taxa, maior a amostra necessária. Conversões de 1% a 2% costumam exigir dezenas ou centenas de milhares de visitantes para detectar melhorias modestas.

Devo usar MDE relativo ou absoluto?

O relativo é mais intuitivo para a maioria dos times ("quero crescer 10%"). O absoluto é útil quando você raciocina em pontos percentuais. A calculadora aceita os dois — escolha o que for mais natural para você.

Posso parar antes de atingir a amostra calculada?

Não, se quiser um resultado confiável. Parar cedo é a principal causa de falsos positivos em testes A/B. Espere atingir a amostra e completar pelo menos uma a duas semanas inteiras.

Calculadora de Tamanho de Amostra para Teste A/B

Planejar o teste A/B

Por que calcular a amostra antes do teste

Como a calculadora funciona

O que é poder estatístico

Como escolher o efeito mínimo detectável

Quanto tempo deixar o teste rodando

Exemplo resolvido

Perguntas frequentes

Teste planejado, hora de medir

Calculadora de Tamanho de Amostra para Teste A/B

Planejar o teste A/B

Por que calcular a amostra antes do teste

Como a calculadora funciona

O que é poder estatístico

Como escolher o efeito mínimo detectável

Quanto tempo deixar o teste rodando

Exemplo resolvido

Perguntas frequentes

Calculadoras relacionadas

Teste A/B

Tamanho de Amostra

Teste de Proporção

Teste planejado, hora de medir