Qual nível de confiança usar em um teste A/B?

95% é o padrão de mercado. Use 99% quando o custo de uma decisão errada for alto e 90% apenas em testes exploratórios.

Calculadora de Teste A/B — Significância Estatística Grátis

O que é um teste A/B

Um teste A/B é um experimento controlado que compara duas versões de algo para descobrir qual delas tem o melhor desempenho. A versão A é o controle — normalmente o que já existe. A versão B é a variação — a mudança que você quer testar. Você divide o público aleatoriamente entre as duas e mede uma métrica de interesse, quase sempre a taxa de conversão.

O exemplo clássico vem do marketing digital: duas versões de uma página de vendas, dois assuntos de e-mail, dois botões de cores diferentes. Mas a mesma lógica vale para qualquer área. Um hospital pode comparar dois protocolos de orientação ao paciente; um aplicativo pode comparar dois fluxos de cadastro; uma escola pode comparar dois métodos de ensino. Sempre que existem dois grupos e uma taxa de sucesso, há um teste A/B possível.

O problema é que, ao olhar dois números — digamos, 11% de conversão contra 12% —, é impossível saber a olho nu se a diferença é real ou se foi sorte. Se você jogar duas moedas honestas 100 vezes cada, uma quase sempre dará mais "cara" que a outra; isso não significa que ela seja "melhor". O teste A/B usa estatística exatamente para distinguir sinal (uma diferença verdadeira) de ruído (variação aleatória).

O que é significância estatística

A significância estatística é o critério que separa uma diferença confiável de uma diferença que pode ter aparecido por acaso. Para chegar a ela, todo teste de hipótese parte de uma suposição pessimista chamada hipótese nula: a de que não existe diferença alguma entre A e B, e qualquer distância observada é puro ruído amostral.

A calculadora então mede o quanto os seus dados "discordam" dessa hipótese e resume isso em um número, o valor-p. O valor-p responde a uma pergunta muito específica:

O que o valor-p mede

"Se A e B fossem realmente iguais, qual seria a probabilidade de eu observar uma diferença tão grande quanto a que medi — ou ainda maior — só por acaso?"

Um valor-p pequeno significa que o seu resultado seria muito raro num mundo onde A e B são iguais. Logo, é mais plausível que eles não sejam iguais. Você compara o valor-p com um limite definido antes do teste, o nível de significância (representado pela letra grega α, alfa). O padrão é α = 5% (0,05):

valor-p < 0,05 → resultado estatisticamente significativo. A diferença provavelmente é real.
valor-p ≥ 0,05 → resultado não significativo. Não há evidência suficiente para afirmar que A e B são diferentes.

Cuidado com a interpretação

O valor-p não é a probabilidade de a sua variante ser melhor, e "não significativo" não prova que A e B são iguais — só indica que faltam dados. Significância estatística também não é o mesmo que importância prática: com uma amostra gigantesca, até uma diferença minúscula e irrelevante pode dar "significativa".

Como a calculadora faz a conta

Por baixo dos panos, esta calculadora aplica um teste z para duas proporções. É o procedimento padrão para comparar duas taxas de conversão. São quatro passos:

1. Taxa de conversão de cada variante. Basta dividir as conversões pelos visitantes:

p_A = conversões_A ÷ visitantes_A e p_B = conversões_B ÷ visitantes_B

2. Proporção combinada. Sob a hipótese nula, A e B vêm da mesma população. Por isso juntamos tudo numa única taxa, a proporção combinada (pooled):

p̄ = (conversões_A + conversões_B) ÷ (visitantes_A + visitantes_B)

3. Erro padrão e estatística z. O erro padrão mede quanta variação aleatória é esperada na diferença entre as duas taxas. A estatística z divide a diferença observada por esse erro padrão — ou seja, mede a diferença em "número de erros padrão":

EP = √[ p̄ · (1 − p̄) · (1/n_A + 1/n_B) ]
z = (p_B − p_A) ÷ EP n_A e n_B são os números de visitantes de cada variante.

4. Valor-p. Quanto maior o |z|, mais longe você está do cenário "sem diferença". A calculadora converte o z em valor-p usando a distribuição normal padrão (Φ é a sua função de distribuição acumulada):

valor-p (bicaudal) = 2 · [ 1 − Φ(|z|) ]

Além do veredito, a calculadora devolve o intervalo de confiança da diferença — a faixa de valores plausíveis para o ganho real de conversão. Esse intervalo é mais informativo que o "sim ou não" da significância, porque mostra o tamanho provável do efeito.

Como interpretar o resultado da calculadora

Depois de calcular, você verá um cartão colorido com a conclusão e seis indicadores. Veja o que cada um diz:

Taxa de conversão A e B — o desempenho bruto de cada versão, em porcentagem.
Diferença relativa (uplift) — quanto a variante B cresceu (ou caiu) em relação a A. Um uplift de +10% significa que B converte 10% melhor que A em termos relativos.
Valor-p — a probabilidade de ver essa diferença por acaso. Quanto menor, mais forte a evidência.
Estatística z — a diferença medida em erros padrão. Em um teste bicaudal a 95%, |z| acima de 1,96 já indica significância.
Confiança no resultado — é simplesmente 1 − valor-p. Um valor-p de 0,02 vira "98% de confiança". Atenção: isso não é a probabilidade de B vencer; é apenas o complemento do valor-p.
Intervalo de confiança da diferença — a faixa provável do ganho real. Se o intervalo cruza o zero, a vantagem ainda é incerta.

A regra de ouro

Decida quem vence olhando o conjunto: o veredito de significância, o tamanho do uplift e o intervalo de confiança. Um resultado significativo com uplift minúsculo pode não valer o esforço de implementar. Um resultado não significativo com uplift promissor pode só precisar de mais dados.

Bicaudal, unicaudal e nível de confiança

Dois ajustes mudam o rigor do teste. O primeiro é o tipo de teste:

Bicaudal — testa se B é diferente de A, para mais ou para menos. É a opção mais segura e recomendada na maioria dos casos, porque um teste A/B pode piorar a conversão.
Unicaudal — testa apenas se B é melhor que A. Detecta diferenças com mais facilidade, mas só é válido se você definiu essa direção antes de coletar os dados e aceita ignorar a possibilidade de piora.

O segundo ajuste é o nível de confiança, o complemento do nível de significância:

Confiança	Significância (α)	Quando usar
90%	0,10	Testes exploratórios, baixo custo de erro.
95%	0,05	Padrão de mercado. Use na dúvida.
99%	0,01	Decisões caras ou de alto risco.

Quanto maior a confiança exigida, mais difícil é alcançar significância — e maior a amostra necessária. Aumentar a confiança reduz o risco de falso positivo (erro tipo I: declarar vencedor quem não é), mas aumenta o risco de falso negativo (erro tipo II: não detectar uma melhoria que existe).

Exemplo resolvido passo a passo

Uma loja virtual testou uma nova página de produto. Veja os números coletados em duas semanas:

Variante	Visitantes	Conversões	Taxa
A — página atual	16.450	1.840	11,19%
B — página nova	16.320	2.010	12,32%

Taxas: p_A = 1840 ÷ 16450 = 0,1119 (11,19%); p_B = 2010 ÷ 16320 = 0,1232 (12,32%).
Proporção combinada: p̄ = (1840 + 2010) ÷ (16450 + 16320) = 3850 ÷ 32770 = 0,1175.
Erro padrão: EP = √[0,1175 · 0,8825 · (1/16450 + 1/16320)] ≈ 0,00356.
Estatística z: z = (0,1232 − 0,1119) ÷ 0,00356 ≈ 3,18.
Valor-p: para z = 3,18, o valor-p bicaudal é ≈ 0,0015 — bem abaixo de 0,05.

Conclusão: a diferença é estatisticamente significativa a 95% de confiança. A variante B converte cerca de 10% melhor (uplift relativo) e o resultado dificilmente é fruto do acaso. Use o botão "Preencher com exemplo" acima para ver esse cálculo na calculadora.

7 erros que invalidam um teste A/B

Mais perigoso que não fazer um teste é fazer um teste mal feito — ele dá uma falsa sensação de certeza. Evite estas armadilhas:

Parar o teste no primeiro momento favorável (peeking). Ficar olhando o resultado e encerrar assim que aparece "significativo" infla o falso positivo de 5% para 20%, 30% ou mais. Defina o tamanho de amostra antes e só decida ao atingi-lo.
Não calcular o tamanho de amostra. Sem saber de quantos visitantes você precisa, o teste vira loteria. Use a calculadora de amostra antes de começar.
Rodar por tempo curto demais. Um teste precisa cobrir ciclos completos — incluindo fins de semana e dias de pagamento. O ideal é durar pelo menos uma a duas semanas inteiras.
Testar várias variações sem ajuste. Quanto mais versões você compara ao mesmo tempo, maior a chance de uma "vencer" por sorte. Com muitas variantes, é preciso corrigir o nível de significância.
Mudar o teste no meio do caminho. Alterar a página, o tráfego ou o público durante o experimento contamina os dados. Congele tudo até o fim.
Confundir significância com relevância. Um uplift de 0,1% pode ser "significativo" com amostra enorme e ainda assim não pagar o custo da mudança. Olhe sempre o tamanho do efeito.
Ignorar a segmentação. Uma variante pode vencer no celular e perder no computador. Uma média geral pode esconder isso — quando fizer sentido, analise os segmentos.

Teste A/B além do marketing

Embora tenha virado sinônimo de otimização de conversão (CRO), o teste A/B é, na essência, uma comparação de duas proporções — e isso aparece em todo lugar:

Saúde e enfermagem: comparar a taxa de adesão a um tratamento entre dois grupos, ou a taxa de complicação entre dois protocolos. Veja o guia de estatística para enfermagem.
Psicologia e pesquisa: comparar a proporção de participantes que apresentam determinado comportamento em duas condições experimentais. Veja o guia de estatística para psicologia.
Produto e tecnologia: comparar a taxa de retenção, de ativação ou de erro entre duas versões de um aplicativo.

Quando o que você compara não são taxas, mas médias — tempo, nota, pressão arterial, faturamento por cliente —, o teste certo passa a ser o teste t de Student. E se você quer comparar uma única proporção com um valor de referência, use o teste de proporção.

Perguntas frequentes

O que é um teste A/B?

É um experimento que divide o público aleatoriamente entre duas versões — A (controle) e B (variação) — e mede qual gera mais conversões. A estatística entra para garantir que a diferença observada seja real, e não acaso.

O que significa "estatisticamente significativo"?

Significa que o valor-p ficou abaixo do nível de significância escolhido (em geral 5%). É improvável que a diferença entre as variantes tenha surgido por puro acaso — há evidência de um efeito real.

Qual nível de confiança devo usar?

95% é o padrão e funciona para a maioria dos casos. Use 99% quando uma decisão errada custar caro e 90% apenas em testes exploratórios, em que um falso positivo tem pouca consequência.

Quantos visitantes preciso para um teste A/B?

Depende da sua taxa de conversão atual e do tamanho do efeito que você quer detectar. Quanto menor a melhoria esperada, maior a amostra. Calcule antes na calculadora de tamanho de amostra.

Posso encerrar o teste assim que der significativo?

Não. Verificar o resultado repetidamente e parar no primeiro momento favorável (peeking) infla muito a taxa de falsos positivos. Defina o tamanho de amostra no início e só tome a decisão quando atingi-lo.

O resultado deu não significativo. E agora?

Não significativo não prova que as versões são iguais — em geral significa que faltam dados. Verifique se você atingiu o tamanho de amostra planejado. Se sim, a mudança provavelmente teve efeito pequeno demais para valer a pena.

Calculadora de Teste A/B

Calcular significância do teste

O que é um teste A/B

O que é significância estatística

Como a calculadora faz a conta

Como interpretar o resultado da calculadora

Bicaudal, unicaudal e nível de confiança

Exemplo resolvido passo a passo

7 erros que invalidam um teste A/B

Teste A/B além do marketing

Perguntas frequentes

Planeje o próximo teste com segurança

Calculadora de Teste A/B

Calcular significância do teste

O que é um teste A/B

O que é significância estatística

Como a calculadora faz a conta

Como interpretar o resultado da calculadora

Bicaudal, unicaudal e nível de confiança

Exemplo resolvido passo a passo

7 erros que invalidam um teste A/B

Teste A/B além do marketing

Perguntas frequentes

Calculadoras relacionadas

Tamanho de amostra A/B

Teste de Proporção

Teste t de Student

Planeje o próximo teste com segurança