Calculadora de Tamanho de Amostra para Teste A/B

Descubra quantos visitantes o seu teste precisa e por quantos dias ele deve rodar — antes de coletar o primeiro dado.

Planejar o teste A/B

Informe a sua taxa de conversão atual e o tamanho da melhoria que você quer ser capaz de detectar.

Sua conversão hoje
%
A taxa da sua versão atual (controle).
O que você quer detectar
%
Aumento relativo sobre a taxa atual.
Rigor do teste
Total dos dois grupos somados, para estimar a duração.

Já coletou os dados? Veja se a diferença é significativa na calculadora de teste A/B.

Por que calcular a amostra antes do teste

O erro mais comum em testes A/B não está na conta final — está em começar sem um plano. Quem inicia um teste sem definir o tamanho de amostra cai sempre em uma de duas armadilhas. Ou olha o painel todo dia e para no primeiro momento em que aparece "significativo", o que infla enormemente a chance de um falso positivo. Ou deixa rodando para sempre, gastando tráfego em um teste que nunca conclui.

Calcular o tamanho de amostra antes resolve os dois problemas. Você fixa uma meta — "preciso de 12.000 visitantes por variante" — e só toma a decisão quando atinge esse número. O resultado passa a ser confiável porque o critério de parada foi definido antes de ver qualquer dado.

Como a calculadora funciona

O tamanho de amostra de um teste A/B depende de quatro ingredientes. Mexa em qualquer um deles e o número muda:

  • Taxa de conversão atual — o ponto de partida. Taxas muito baixas exigem amostras maiores.
  • Efeito mínimo detectável (MDE) — a menor melhoria que você quer ser capaz de enxergar. Quanto menor, maior a amostra.
  • Nível de confiança — controla o risco de falso positivo. 95% é o padrão.
  • Poder estatístico — controla o risco de falso negativo. 80% é o padrão.

A calculadora combina esses valores na fórmula clássica de comparação de duas proporções (baseada na aproximação normal), considerando os dois grupos de tamanho igual:

n por variante = [ zα·√(2·p̄·q̄) + zβ·√(p₁·q₁ + p₂·q₂) ]² ÷ (p₂ − p₁)² p₁ é a taxa atual, p₂ a taxa-alvo, q = 1 − p, p̄ a média das duas; zα e zβ vêm da confiança e do poder.

O que é poder estatístico

Se o nível de confiança protege contra "ver" um efeito que não existe, o poder estatístico protege contra o oposto: não ver um efeito que existe. O poder é a probabilidade de o teste detectar uma melhoria verdadeira.

O padrão de mercado é 80%. Isso significa que, se a sua variante realmente é melhor na magnitude que você definiu, o teste vai detectar isso em 80% das vezes — e vai falhar (falso negativo) em 20%. Subir para 90% de poder dá mais segurança, mas exige uma amostra bem maior. Para a maioria dos times, 80% é o equilíbrio adequado.

Confiança e poder

Confiança 95% e poder 80% são as configurações de partida para quase todo teste A/B. Só mude se tiver um motivo claro: mais confiança quando o erro custa caro, mais poder quando perder um ganho real é inaceitável.

Como escolher o efeito mínimo detectável

O MDE é a decisão mais estratégica — e a que mais confunde. Ele responde: "qual é a menor melhoria que ainda vale a pena para o meu negócio?"

Você pode informá-lo de duas formas:

  • Relativo: um aumento percentual sobre a taxa atual. Um MDE relativo de 10% sobre uma conversão de 5% mira em 5,5%.
  • Absoluto: um aumento em pontos percentuais. Um MDE absoluto de 1 ponto sobre 5% mira em 6%.

A tentação é escolher um MDE pequeno para "não perder nada". O problema é que detectar melhorias minúsculas custa caro: reduzir o MDE pela metade quadruplica a amostra necessária. Seja realista — mire na menor melhoria que justificaria, de fato, implementar a mudança.

Quanto tempo deixar o teste rodando

O tamanho de amostra responde "quantas pessoas". A duração responde "por quantos dias" — basta dividir a amostra total pelo tráfego diário. Mas há uma regra extra: todo teste deve rodar por pelo menos uma a duas semanas inteiras, mesmo que a amostra seja atingida antes.

O motivo é que o comportamento muda ao longo da semana. Quem visita um site na segunda-feira de manhã não é o mesmo público da sexta à noite. Encerrar um teste depois de três dias corridos pode capturar só um "tipo" de visitante e distorcer o resultado. Sempre feche o teste no fim de semanas completas.

Exemplo resolvido

Uma loja converte hoje 5% dos visitantes e quer detectar uma melhoria relativa de 10% (ou seja, chegar a 5,5%), com 95% de confiança e 80% de poder, em um teste bicaudal.

  1. Taxa atual p₁ = 0,05; taxa-alvo p₂ = 0,05 × 1,10 = 0,055.
  2. Com zα ≈ 1,96 (95%, bicaudal) e zβ ≈ 0,84 (80% de poder), a fórmula resulta em cerca de 31.234 visitantes por variante.
  3. Amostra total ≈ 62.468 visitantes (somando A e B).
  4. Com 800 visitantes por dia, o teste deve rodar ≈ 79 dias — cerca de 11 semanas.

Esse número costuma surpreender, e é exatamente por isso que vale calculá-lo antes: melhorias pequenas em taxas baixas exigem muito tráfego. Use o botão "Preencher com exemplo" para ver o cálculo na calculadora.

Perguntas frequentes

Por que preciso calcular a amostra antes do teste?

Porque sem um alvo definido você não sabe quando parar. Fixar a amostra antes evita o "peeking" — parar no primeiro resultado favorável — que transforma um teste de 5% de falso positivo em algo muito menos confiável.

O que acontece se a taxa de conversão for muito baixa?

Quanto menor a taxa, maior a amostra necessária. Conversões de 1% a 2% costumam exigir dezenas ou centenas de milhares de visitantes para detectar melhorias modestas.

Devo usar MDE relativo ou absoluto?

O relativo é mais intuitivo para a maioria dos times ("quero crescer 10%"). O absoluto é útil quando você raciocina em pontos percentuais. A calculadora aceita os dois — escolha o que for mais natural para você.

Posso parar antes de atingir a amostra calculada?

Não, se quiser um resultado confiável. Parar cedo é a principal causa de falsos positivos em testes A/B. Espere atingir a amostra e completar pelo menos uma a duas semanas inteiras.

Teste planejado, hora de medir

Quando o teste atingir a amostra, traga os números para a calculadora de significância.

Abrir a Calculadora de Teste A/B