Calculadora de Teste A/B

Compare duas versões e descubra, em segundos, se a diferença entre elas é estatisticamente significativa — ou se pode ser só acaso.

Calcular significância do teste

Informe os visitantes e as conversões de cada variante. Conversão é a ação que você mede: compra, cadastro, clique, etc.

Variante A — Controle
Variante B — Variação
Configuração do teste

Quer planejar o teste antes de começar? Use a calculadora de tamanho de amostra para teste A/B e descubra de quantos visitantes você precisa.

O que é um teste A/B

Um teste A/B é um experimento controlado que compara duas versões de algo para descobrir qual delas tem o melhor desempenho. A versão A é o controle — normalmente o que já existe. A versão B é a variação — a mudança que você quer testar. Você divide o público aleatoriamente entre as duas e mede uma métrica de interesse, quase sempre a taxa de conversão.

O exemplo clássico vem do marketing digital: duas versões de uma página de vendas, dois assuntos de e-mail, dois botões de cores diferentes. Mas a mesma lógica vale para qualquer área. Um hospital pode comparar dois protocolos de orientação ao paciente; um aplicativo pode comparar dois fluxos de cadastro; uma escola pode comparar dois métodos de ensino. Sempre que existem dois grupos e uma taxa de sucesso, há um teste A/B possível.

O problema é que, ao olhar dois números — digamos, 11% de conversão contra 12% —, é impossível saber a olho nu se a diferença é real ou se foi sorte. Se você jogar duas moedas honestas 100 vezes cada, uma quase sempre dará mais "cara" que a outra; isso não significa que ela seja "melhor". O teste A/B usa estatística exatamente para distinguir sinal (uma diferença verdadeira) de ruído (variação aleatória).

O que é significância estatística

A significância estatística é o critério que separa uma diferença confiável de uma diferença que pode ter aparecido por acaso. Para chegar a ela, todo teste de hipótese parte de uma suposição pessimista chamada hipótese nula: a de que não existe diferença alguma entre A e B, e qualquer distância observada é puro ruído amostral.

A calculadora então mede o quanto os seus dados "discordam" dessa hipótese e resume isso em um número, o valor-p. O valor-p responde a uma pergunta muito específica:

O que o valor-p mede

"Se A e B fossem realmente iguais, qual seria a probabilidade de eu observar uma diferença tão grande quanto a que medi — ou ainda maior — só por acaso?"

Um valor-p pequeno significa que o seu resultado seria muito raro num mundo onde A e B são iguais. Logo, é mais plausível que eles não sejam iguais. Você compara o valor-p com um limite definido antes do teste, o nível de significância (representado pela letra grega α, alfa). O padrão é α = 5% (0,05):

  • valor-p < 0,05 → resultado estatisticamente significativo. A diferença provavelmente é real.
  • valor-p ≥ 0,05 → resultado não significativo. Não há evidência suficiente para afirmar que A e B são diferentes.
Cuidado com a interpretação

O valor-p não é a probabilidade de a sua variante ser melhor, e "não significativo" não prova que A e B são iguais — só indica que faltam dados. Significância estatística também não é o mesmo que importância prática: com uma amostra gigantesca, até uma diferença minúscula e irrelevante pode dar "significativa".

Como a calculadora faz a conta

Por baixo dos panos, esta calculadora aplica um teste z para duas proporções. É o procedimento padrão para comparar duas taxas de conversão. São quatro passos:

1. Taxa de conversão de cada variante. Basta dividir as conversões pelos visitantes:

pA = conversõesA ÷ visitantesA  e  pB = conversõesB ÷ visitantesB

2. Proporção combinada. Sob a hipótese nula, A e B vêm da mesma população. Por isso juntamos tudo numa única taxa, a proporção combinada (pooled):

p̄ = (conversõesA + conversõesB) ÷ (visitantesA + visitantesB)

3. Erro padrão e estatística z. O erro padrão mede quanta variação aleatória é esperada na diferença entre as duas taxas. A estatística z divide a diferença observada por esse erro padrão — ou seja, mede a diferença em "número de erros padrão":

EP = √[ p̄ · (1 − p̄) · (1/nA + 1/nB) ]
z = (pB − pA) ÷ EP nA e nB são os números de visitantes de cada variante.

4. Valor-p. Quanto maior o |z|, mais longe você está do cenário "sem diferença". A calculadora converte o z em valor-p usando a distribuição normal padrão (Φ é a sua função de distribuição acumulada):

valor-p (bicaudal) = 2 · [ 1 − Φ(|z|) ]

Além do veredito, a calculadora devolve o intervalo de confiança da diferença — a faixa de valores plausíveis para o ganho real de conversão. Esse intervalo é mais informativo que o "sim ou não" da significância, porque mostra o tamanho provável do efeito.

Para se aprofundar

O teste A/B é a porta de entrada da estatística aplicada. Para dominar o assunto na sua área:

Os links acima levam a conteúdos do próprio site. Caso passem a incluir indicações de parceiros, esta seção sinalizará a parceria.

Como interpretar o resultado da calculadora

Depois de calcular, você verá um cartão colorido com a conclusão e seis indicadores. Veja o que cada um diz:

  • Taxa de conversão A e B — o desempenho bruto de cada versão, em porcentagem.
  • Diferença relativa (uplift) — quanto a variante B cresceu (ou caiu) em relação a A. Um uplift de +10% significa que B converte 10% melhor que A em termos relativos.
  • Valor-p — a probabilidade de ver essa diferença por acaso. Quanto menor, mais forte a evidência.
  • Estatística z — a diferença medida em erros padrão. Em um teste bicaudal a 95%, |z| acima de 1,96 já indica significância.
  • Confiança no resultado — é simplesmente 1 − valor-p. Um valor-p de 0,02 vira "98% de confiança". Atenção: isso não é a probabilidade de B vencer; é apenas o complemento do valor-p.
  • Intervalo de confiança da diferença — a faixa provável do ganho real. Se o intervalo cruza o zero, a vantagem ainda é incerta.
A regra de ouro

Decida quem vence olhando o conjunto: o veredito de significância, o tamanho do uplift e o intervalo de confiança. Um resultado significativo com uplift minúsculo pode não valer o esforço de implementar. Um resultado não significativo com uplift promissor pode só precisar de mais dados.

Bicaudal, unicaudal e nível de confiança

Dois ajustes mudam o rigor do teste. O primeiro é o tipo de teste:

  • Bicaudal — testa se B é diferente de A, para mais ou para menos. É a opção mais segura e recomendada na maioria dos casos, porque um teste A/B pode piorar a conversão.
  • Unicaudal — testa apenas se B é melhor que A. Detecta diferenças com mais facilidade, mas só é válido se você definiu essa direção antes de coletar os dados e aceita ignorar a possibilidade de piora.

O segundo ajuste é o nível de confiança, o complemento do nível de significância:

ConfiançaSignificância (α)Quando usar
90%0,10Testes exploratórios, baixo custo de erro.
95%0,05Padrão de mercado. Use na dúvida.
99%0,01Decisões caras ou de alto risco.

Quanto maior a confiança exigida, mais difícil é alcançar significância — e maior a amostra necessária. Aumentar a confiança reduz o risco de falso positivo (erro tipo I: declarar vencedor quem não é), mas aumenta o risco de falso negativo (erro tipo II: não detectar uma melhoria que existe).

Exemplo resolvido passo a passo

Uma loja virtual testou uma nova página de produto. Veja os números coletados em duas semanas:

VarianteVisitantesConversõesTaxa
A — página atual16.4501.84011,19%
B — página nova16.3202.01012,32%
  1. Taxas: pA = 1840 ÷ 16450 = 0,1119 (11,19%); pB = 2010 ÷ 16320 = 0,1232 (12,32%).
  2. Proporção combinada: p̄ = (1840 + 2010) ÷ (16450 + 16320) = 3850 ÷ 32770 = 0,1175.
  3. Erro padrão: EP = √[0,1175 · 0,8825 · (1/16450 + 1/16320)] ≈ 0,00356.
  4. Estatística z: z = (0,1232 − 0,1119) ÷ 0,00356 ≈ 3,18.
  5. Valor-p: para z = 3,18, o valor-p bicaudal é ≈ 0,0015 — bem abaixo de 0,05.

Conclusão: a diferença é estatisticamente significativa a 95% de confiança. A variante B converte cerca de 10% melhor (uplift relativo) e o resultado dificilmente é fruto do acaso. Use o botão "Preencher com exemplo" acima para ver esse cálculo na calculadora.

7 erros que invalidam um teste A/B

Mais perigoso que não fazer um teste é fazer um teste mal feito — ele dá uma falsa sensação de certeza. Evite estas armadilhas:

  1. Parar o teste no primeiro momento favorável (peeking). Ficar olhando o resultado e encerrar assim que aparece "significativo" infla o falso positivo de 5% para 20%, 30% ou mais. Defina o tamanho de amostra antes e só decida ao atingi-lo.
  2. Não calcular o tamanho de amostra. Sem saber de quantos visitantes você precisa, o teste vira loteria. Use a calculadora de amostra antes de começar.
  3. Rodar por tempo curto demais. Um teste precisa cobrir ciclos completos — incluindo fins de semana e dias de pagamento. O ideal é durar pelo menos uma a duas semanas inteiras.
  4. Testar várias variações sem ajuste. Quanto mais versões você compara ao mesmo tempo, maior a chance de uma "vencer" por sorte. Com muitas variantes, é preciso corrigir o nível de significância.
  5. Mudar o teste no meio do caminho. Alterar a página, o tráfego ou o público durante o experimento contamina os dados. Congele tudo até o fim.
  6. Confundir significância com relevância. Um uplift de 0,1% pode ser "significativo" com amostra enorme e ainda assim não pagar o custo da mudança. Olhe sempre o tamanho do efeito.
  7. Ignorar a segmentação. Uma variante pode vencer no celular e perder no computador. Uma média geral pode esconder isso — quando fizer sentido, analise os segmentos.

Teste A/B além do marketing

Embora tenha virado sinônimo de otimização de conversão (CRO), o teste A/B é, na essência, uma comparação de duas proporções — e isso aparece em todo lugar:

  • Saúde e enfermagem: comparar a taxa de adesão a um tratamento entre dois grupos, ou a taxa de complicação entre dois protocolos. Veja o guia de estatística para enfermagem.
  • Psicologia e pesquisa: comparar a proporção de participantes que apresentam determinado comportamento em duas condições experimentais. Veja o guia de estatística para psicologia.
  • Produto e tecnologia: comparar a taxa de retenção, de ativação ou de erro entre duas versões de um aplicativo.

Quando o que você compara não são taxas, mas médias — tempo, nota, pressão arterial, faturamento por cliente —, o teste certo passa a ser o teste t de Student. E se você quer comparar uma única proporção com um valor de referência, use o teste de proporção.

Perguntas frequentes

O que é um teste A/B?

É um experimento que divide o público aleatoriamente entre duas versões — A (controle) e B (variação) — e mede qual gera mais conversões. A estatística entra para garantir que a diferença observada seja real, e não acaso.

O que significa "estatisticamente significativo"?

Significa que o valor-p ficou abaixo do nível de significância escolhido (em geral 5%). É improvável que a diferença entre as variantes tenha surgido por puro acaso — há evidência de um efeito real.

Qual nível de confiança devo usar?

95% é o padrão e funciona para a maioria dos casos. Use 99% quando uma decisão errada custar caro e 90% apenas em testes exploratórios, em que um falso positivo tem pouca consequência.

Quantos visitantes preciso para um teste A/B?

Depende da sua taxa de conversão atual e do tamanho do efeito que você quer detectar. Quanto menor a melhoria esperada, maior a amostra. Calcule antes na calculadora de tamanho de amostra.

Posso encerrar o teste assim que der significativo?

Não. Verificar o resultado repetidamente e parar no primeiro momento favorável (peeking) infla muito a taxa de falsos positivos. Defina o tamanho de amostra no início e só tome a decisão quando atingi-lo.

O resultado deu não significativo. E agora?

Não significativo não prova que as versões são iguais — em geral significa que faltam dados. Verifique se você atingiu o tamanho de amostra planejado. Se sim, a mudança provavelmente teve efeito pequeno demais para valer a pena.

Planeje o próximo teste com segurança

Antes de coletar dados, descubra quantos visitantes e quantos dias o seu teste A/B precisa.

Calcular tamanho de amostra