O que é um teste A/B
Um teste A/B é um experimento controlado que compara duas versões de algo para descobrir qual delas tem o melhor desempenho. A versão A é o controle — normalmente o que já existe. A versão B é a variação — a mudança que você quer testar. Você divide o público aleatoriamente entre as duas e mede uma métrica de interesse, quase sempre a taxa de conversão.
O exemplo clássico vem do marketing digital: duas versões de uma página de vendas, dois assuntos de e-mail, dois botões de cores diferentes. Mas a mesma lógica vale para qualquer área. Um hospital pode comparar dois protocolos de orientação ao paciente; um aplicativo pode comparar dois fluxos de cadastro; uma escola pode comparar dois métodos de ensino. Sempre que existem dois grupos e uma taxa de sucesso, há um teste A/B possível.
O problema é que, ao olhar dois números — digamos, 11% de conversão contra 12% —, é impossível saber a olho nu se a diferença é real ou se foi sorte. Se você jogar duas moedas honestas 100 vezes cada, uma quase sempre dará mais "cara" que a outra; isso não significa que ela seja "melhor". O teste A/B usa estatística exatamente para distinguir sinal (uma diferença verdadeira) de ruído (variação aleatória).
O que é significância estatística
A significância estatística é o critério que separa uma diferença confiável de uma diferença que pode ter aparecido por acaso. Para chegar a ela, todo teste de hipótese parte de uma suposição pessimista chamada hipótese nula: a de que não existe diferença alguma entre A e B, e qualquer distância observada é puro ruído amostral.
A calculadora então mede o quanto os seus dados "discordam" dessa hipótese e resume isso em um número, o valor-p. O valor-p responde a uma pergunta muito específica:
"Se A e B fossem realmente iguais, qual seria a probabilidade de eu observar uma diferença tão grande quanto a que medi — ou ainda maior — só por acaso?"
Um valor-p pequeno significa que o seu resultado seria muito raro num mundo onde A e B são iguais. Logo, é mais plausível que eles não sejam iguais. Você compara o valor-p com um limite definido antes do teste, o nível de significância (representado pela letra grega α, alfa). O padrão é α = 5% (0,05):
- valor-p < 0,05 → resultado estatisticamente significativo. A diferença provavelmente é real.
- valor-p ≥ 0,05 → resultado não significativo. Não há evidência suficiente para afirmar que A e B são diferentes.
O valor-p não é a probabilidade de a sua variante ser melhor, e "não significativo" não prova que A e B são iguais — só indica que faltam dados. Significância estatística também não é o mesmo que importância prática: com uma amostra gigantesca, até uma diferença minúscula e irrelevante pode dar "significativa".
Como a calculadora faz a conta
Por baixo dos panos, esta calculadora aplica um teste z para duas proporções. É o procedimento padrão para comparar duas taxas de conversão. São quatro passos:
1. Taxa de conversão de cada variante. Basta dividir as conversões pelos visitantes:
2. Proporção combinada. Sob a hipótese nula, A e B vêm da mesma população. Por isso juntamos tudo numa única taxa, a proporção combinada (pooled):
3. Erro padrão e estatística z. O erro padrão mede quanta variação aleatória é esperada na diferença entre as duas taxas. A estatística z divide a diferença observada por esse erro padrão — ou seja, mede a diferença em "número de erros padrão":
z = (pB − pA) ÷ EP nA e nB são os números de visitantes de cada variante.
4. Valor-p. Quanto maior o |z|, mais longe você está do cenário "sem diferença". A calculadora converte o z em valor-p usando a distribuição normal padrão (Φ é a sua função de distribuição acumulada):
Além do veredito, a calculadora devolve o intervalo de confiança da diferença — a faixa de valores plausíveis para o ganho real de conversão. Esse intervalo é mais informativo que o "sim ou não" da significância, porque mostra o tamanho provável do efeito.
O teste A/B é a porta de entrada da estatística aplicada. Para dominar o assunto na sua área:
- Guia de estatística para Marketing e CRO — poder estatístico, MDE e as armadilhas dos experimentos.
- Calculadora de tamanho de amostra — planeje o teste antes de coletar um único dado.
Os links acima levam a conteúdos do próprio site. Caso passem a incluir indicações de parceiros, esta seção sinalizará a parceria.
Como interpretar o resultado da calculadora
Depois de calcular, você verá um cartão colorido com a conclusão e seis indicadores. Veja o que cada um diz:
- Taxa de conversão A e B — o desempenho bruto de cada versão, em porcentagem.
- Diferença relativa (uplift) — quanto a variante B cresceu (ou caiu) em relação a A. Um uplift de +10% significa que B converte 10% melhor que A em termos relativos.
- Valor-p — a probabilidade de ver essa diferença por acaso. Quanto menor, mais forte a evidência.
- Estatística z — a diferença medida em erros padrão. Em um teste bicaudal a 95%, |z| acima de 1,96 já indica significância.
- Confiança no resultado — é simplesmente 1 − valor-p. Um valor-p de 0,02 vira "98% de confiança". Atenção: isso não é a probabilidade de B vencer; é apenas o complemento do valor-p.
- Intervalo de confiança da diferença — a faixa provável do ganho real. Se o intervalo cruza o zero, a vantagem ainda é incerta.
Decida quem vence olhando o conjunto: o veredito de significância, o tamanho do uplift e o intervalo de confiança. Um resultado significativo com uplift minúsculo pode não valer o esforço de implementar. Um resultado não significativo com uplift promissor pode só precisar de mais dados.
Bicaudal, unicaudal e nível de confiança
Dois ajustes mudam o rigor do teste. O primeiro é o tipo de teste:
- Bicaudal — testa se B é diferente de A, para mais ou para menos. É a opção mais segura e recomendada na maioria dos casos, porque um teste A/B pode piorar a conversão.
- Unicaudal — testa apenas se B é melhor que A. Detecta diferenças com mais facilidade, mas só é válido se você definiu essa direção antes de coletar os dados e aceita ignorar a possibilidade de piora.
O segundo ajuste é o nível de confiança, o complemento do nível de significância:
| Confiança | Significância (α) | Quando usar |
|---|---|---|
| 90% | 0,10 | Testes exploratórios, baixo custo de erro. |
| 95% | 0,05 | Padrão de mercado. Use na dúvida. |
| 99% | 0,01 | Decisões caras ou de alto risco. |
Quanto maior a confiança exigida, mais difícil é alcançar significância — e maior a amostra necessária. Aumentar a confiança reduz o risco de falso positivo (erro tipo I: declarar vencedor quem não é), mas aumenta o risco de falso negativo (erro tipo II: não detectar uma melhoria que existe).
Exemplo resolvido passo a passo
Uma loja virtual testou uma nova página de produto. Veja os números coletados em duas semanas:
| Variante | Visitantes | Conversões | Taxa |
|---|---|---|---|
| A — página atual | 16.450 | 1.840 | 11,19% |
| B — página nova | 16.320 | 2.010 | 12,32% |
- Taxas: pA = 1840 ÷ 16450 = 0,1119 (11,19%); pB = 2010 ÷ 16320 = 0,1232 (12,32%).
- Proporção combinada: p̄ = (1840 + 2010) ÷ (16450 + 16320) = 3850 ÷ 32770 = 0,1175.
- Erro padrão: EP = √[0,1175 · 0,8825 · (1/16450 + 1/16320)] ≈ 0,00356.
- Estatística z: z = (0,1232 − 0,1119) ÷ 0,00356 ≈ 3,18.
- Valor-p: para z = 3,18, o valor-p bicaudal é ≈ 0,0015 — bem abaixo de 0,05.
Conclusão: a diferença é estatisticamente significativa a 95% de confiança. A variante B converte cerca de 10% melhor (uplift relativo) e o resultado dificilmente é fruto do acaso. Use o botão "Preencher com exemplo" acima para ver esse cálculo na calculadora.
7 erros que invalidam um teste A/B
Mais perigoso que não fazer um teste é fazer um teste mal feito — ele dá uma falsa sensação de certeza. Evite estas armadilhas:
- Parar o teste no primeiro momento favorável (peeking). Ficar olhando o resultado e encerrar assim que aparece "significativo" infla o falso positivo de 5% para 20%, 30% ou mais. Defina o tamanho de amostra antes e só decida ao atingi-lo.
- Não calcular o tamanho de amostra. Sem saber de quantos visitantes você precisa, o teste vira loteria. Use a calculadora de amostra antes de começar.
- Rodar por tempo curto demais. Um teste precisa cobrir ciclos completos — incluindo fins de semana e dias de pagamento. O ideal é durar pelo menos uma a duas semanas inteiras.
- Testar várias variações sem ajuste. Quanto mais versões você compara ao mesmo tempo, maior a chance de uma "vencer" por sorte. Com muitas variantes, é preciso corrigir o nível de significância.
- Mudar o teste no meio do caminho. Alterar a página, o tráfego ou o público durante o experimento contamina os dados. Congele tudo até o fim.
- Confundir significância com relevância. Um uplift de 0,1% pode ser "significativo" com amostra enorme e ainda assim não pagar o custo da mudança. Olhe sempre o tamanho do efeito.
- Ignorar a segmentação. Uma variante pode vencer no celular e perder no computador. Uma média geral pode esconder isso — quando fizer sentido, analise os segmentos.
Teste A/B além do marketing
Embora tenha virado sinônimo de otimização de conversão (CRO), o teste A/B é, na essência, uma comparação de duas proporções — e isso aparece em todo lugar:
- Saúde e enfermagem: comparar a taxa de adesão a um tratamento entre dois grupos, ou a taxa de complicação entre dois protocolos. Veja o guia de estatística para enfermagem.
- Psicologia e pesquisa: comparar a proporção de participantes que apresentam determinado comportamento em duas condições experimentais. Veja o guia de estatística para psicologia.
- Produto e tecnologia: comparar a taxa de retenção, de ativação ou de erro entre duas versões de um aplicativo.
Quando o que você compara não são taxas, mas médias — tempo, nota, pressão arterial, faturamento por cliente —, o teste certo passa a ser o teste t de Student. E se você quer comparar uma única proporção com um valor de referência, use o teste de proporção.
Perguntas frequentes
O que é um teste A/B?
É um experimento que divide o público aleatoriamente entre duas versões — A (controle) e B (variação) — e mede qual gera mais conversões. A estatística entra para garantir que a diferença observada seja real, e não acaso.
O que significa "estatisticamente significativo"?
Significa que o valor-p ficou abaixo do nível de significância escolhido (em geral 5%). É improvável que a diferença entre as variantes tenha surgido por puro acaso — há evidência de um efeito real.
Qual nível de confiança devo usar?
95% é o padrão e funciona para a maioria dos casos. Use 99% quando uma decisão errada custar caro e 90% apenas em testes exploratórios, em que um falso positivo tem pouca consequência.
Quantos visitantes preciso para um teste A/B?
Depende da sua taxa de conversão atual e do tamanho do efeito que você quer detectar. Quanto menor a melhoria esperada, maior a amostra. Calcule antes na calculadora de tamanho de amostra.
Posso encerrar o teste assim que der significativo?
Não. Verificar o resultado repetidamente e parar no primeiro momento favorável (peeking) infla muito a taxa de falsos positivos. Defina o tamanho de amostra no início e só tome a decisão quando atingi-lo.
O resultado deu não significativo. E agora?
Não significativo não prova que as versões são iguais — em geral significa que faltam dados. Verifique se você atingiu o tamanho de amostra planejado. Se sim, a mudança provavelmente teve efeito pequeno demais para valer a pena.