Por que calcular a amostra antes do teste
O erro mais comum em testes A/B não está na conta final — está em começar sem um plano. Quem inicia um teste sem definir o tamanho de amostra cai sempre em uma de duas armadilhas. Ou olha o painel todo dia e para no primeiro momento em que aparece "significativo", o que infla enormemente a chance de um falso positivo. Ou deixa rodando para sempre, gastando tráfego em um teste que nunca conclui.
Calcular o tamanho de amostra antes resolve os dois problemas. Você fixa uma meta — "preciso de 12.000 visitantes por variante" — e só toma a decisão quando atinge esse número. O resultado passa a ser confiável porque o critério de parada foi definido antes de ver qualquer dado.
Como a calculadora funciona
O tamanho de amostra de um teste A/B depende de quatro ingredientes. Mexa em qualquer um deles e o número muda:
- Taxa de conversão atual — o ponto de partida. Taxas muito baixas exigem amostras maiores.
- Efeito mínimo detectável (MDE) — a menor melhoria que você quer ser capaz de enxergar. Quanto menor, maior a amostra.
- Nível de confiança — controla o risco de falso positivo. 95% é o padrão.
- Poder estatístico — controla o risco de falso negativo. 80% é o padrão.
A calculadora combina esses valores na fórmula clássica de comparação de duas proporções (baseada na aproximação normal), considerando os dois grupos de tamanho igual:
O que é poder estatístico
Se o nível de confiança protege contra "ver" um efeito que não existe, o poder estatístico protege contra o oposto: não ver um efeito que existe. O poder é a probabilidade de o teste detectar uma melhoria verdadeira.
O padrão de mercado é 80%. Isso significa que, se a sua variante realmente é melhor na magnitude que você definiu, o teste vai detectar isso em 80% das vezes — e vai falhar (falso negativo) em 20%. Subir para 90% de poder dá mais segurança, mas exige uma amostra bem maior. Para a maioria dos times, 80% é o equilíbrio adequado.
Confiança 95% e poder 80% são as configurações de partida para quase todo teste A/B. Só mude se tiver um motivo claro: mais confiança quando o erro custa caro, mais poder quando perder um ganho real é inaceitável.
Como escolher o efeito mínimo detectável
O MDE é a decisão mais estratégica — e a que mais confunde. Ele responde: "qual é a menor melhoria que ainda vale a pena para o meu negócio?"
Você pode informá-lo de duas formas:
- Relativo: um aumento percentual sobre a taxa atual. Um MDE relativo de 10% sobre uma conversão de 5% mira em 5,5%.
- Absoluto: um aumento em pontos percentuais. Um MDE absoluto de 1 ponto sobre 5% mira em 6%.
A tentação é escolher um MDE pequeno para "não perder nada". O problema é que detectar melhorias minúsculas custa caro: reduzir o MDE pela metade quadruplica a amostra necessária. Seja realista — mire na menor melhoria que justificaria, de fato, implementar a mudança.
Quanto tempo deixar o teste rodando
O tamanho de amostra responde "quantas pessoas". A duração responde "por quantos dias" — basta dividir a amostra total pelo tráfego diário. Mas há uma regra extra: todo teste deve rodar por pelo menos uma a duas semanas inteiras, mesmo que a amostra seja atingida antes.
O motivo é que o comportamento muda ao longo da semana. Quem visita um site na segunda-feira de manhã não é o mesmo público da sexta à noite. Encerrar um teste depois de três dias corridos pode capturar só um "tipo" de visitante e distorcer o resultado. Sempre feche o teste no fim de semanas completas.
Exemplo resolvido
Uma loja converte hoje 5% dos visitantes e quer detectar uma melhoria relativa de 10% (ou seja, chegar a 5,5%), com 95% de confiança e 80% de poder, em um teste bicaudal.
- Taxa atual p₁ = 0,05; taxa-alvo p₂ = 0,05 × 1,10 = 0,055.
- Com zα ≈ 1,96 (95%, bicaudal) e zβ ≈ 0,84 (80% de poder), a fórmula resulta em cerca de 31.234 visitantes por variante.
- Amostra total ≈ 62.468 visitantes (somando A e B).
- Com 800 visitantes por dia, o teste deve rodar ≈ 79 dias — cerca de 11 semanas.
Esse número costuma surpreender, e é exatamente por isso que vale calculá-lo antes: melhorias pequenas em taxas baixas exigem muito tráfego. Use o botão "Preencher com exemplo" para ver o cálculo na calculadora.
Perguntas frequentes
Por que preciso calcular a amostra antes do teste?
Porque sem um alvo definido você não sabe quando parar. Fixar a amostra antes evita o "peeking" — parar no primeiro resultado favorável — que transforma um teste de 5% de falso positivo em algo muito menos confiável.
O que acontece se a taxa de conversão for muito baixa?
Quanto menor a taxa, maior a amostra necessária. Conversões de 1% a 2% costumam exigir dezenas ou centenas de milhares de visitantes para detectar melhorias modestas.
Devo usar MDE relativo ou absoluto?
O relativo é mais intuitivo para a maioria dos times ("quero crescer 10%"). O absoluto é útil quando você raciocina em pontos percentuais. A calculadora aceita os dois — escolha o que for mais natural para você.
Posso parar antes de atingir a amostra calculada?
Não, se quiser um resultado confiável. Parar cedo é a principal causa de falsos positivos em testes A/B. Espere atingir a amostra e completar pelo menos uma a duas semanas inteiras.