Teste A/B em marketing digital: como ler resultados sem se enganar

Teste A/B virou rotina em times de growth, CRO, mídia paga e produto. Roda-se quase tudo: cor de botão, headline de landing, copy de anúncio, preço, oferta. O problema é que, na prática, boa parte desses testes é lida errado — para mais ou para menos — e leva o time a decisões que não se sustentam quando a variante vai para 100% do tráfego. Este guia mostra como rodar e ler um teste A/B com a cabeça certa, sem virar estatístico.

O que é um teste A/B (e por que tantos times rodam errado)

Um teste A/B é um experimento controlado: você divide aleatoriamente o tráfego (ou os usuários) entre uma versão A — o controle, o que está no ar hoje — e uma versão B — a variante, com a mudança que você quer avaliar. No fim, compara uma métrica de interesse entre os dois braços e responde a uma pergunta simples: a diferença observada é grande o bastante para ser real, ou caberia dentro do ruído de quem cai em A e quem cai em B por acaso?

No marketing digital brasileiro, isso aparece em todo canto: e-commerce testando layout de PDP, fintech mudando fluxo de onboarding, time de mídia rodando criativos no Meta e no Google Ads, growth experimentando push notification, CRO ajustando microcopy de checkout. A facilidade de implementar dá uma falsa sensação de que o resultado é igualmente fácil de ler — e não é. Plataformas mostram um número grande e verde dizendo "B venceu com 96% de confiança" enquanto, por baixo do capô, o teste foi parado cedo, a amostra é pequena, o efeito é minúsculo, ou a métrica é só a primeira etapa do funil.

Antes de rodar qualquer coisa, vale fixar o que um teste A/B realmente entrega: uma estimativa do efeito médio de uma mudança sobre uma métrica, com uma margem de incerteza em torno desse efeito. Não é uma verdade absoluta, não é uma garantia de que a mesma diferença vai aparecer no mês que vem, e não dispensa pensar em mecanismo (por que a variante venceria?). A nossa calculadora de teste A/B trabalha exatamente nessa lógica: dá lift, valor-p e intervalo de confiança da diferença, deixando a decisão de negócio para você.

Definindo a hipótese: o que você está testando, mesmo?

Uma hipótese boa força o time a tomar três decisões antes de tocar no código:

  • Versão A (controle): a página, o anúncio ou o fluxo que está no ar hoje.
  • Versão B (variante): a mudança específica que você quer avaliar — não três mudanças juntas, porque você não vai conseguir saber qual delas moveu a agulha.
  • Métrica primária e direção esperada: o número que decide o teste, e se você espera que ele suba ou desça.

Uma hipótese mal escrita parece assim: "vamos testar uma nova landing page para ver se converte mais". Reescrita como hipótese testável: "trocar o headline atual ('Abra sua conta') por um centrado em benefício ('Sua conta digital em 3 minutos') vai aumentar a taxa de conversão da landing de 4,0% para pelo menos 4,5% — porque benefício explícito reduz fricção cognitiva no primeiro segundo da página." Agora dá para discutir mecanismo, dá para calcular amostra e dá para reportar resultado sem ambiguidade.

Vale também separar métrica primária (a que decide) de métricas secundárias (as que você acompanha para entender o que aconteceu) e métricas de guardrail (as que não podem piorar — bounce, tempo médio de resposta do site, reclamações no SAC, taxa de cancelamento). É comum a variante "ganhar" na primária e quebrar uma de guardrail. Sem essa separação prévia, o time tende a fabricar narrativa em cima do resultado.

Escolha da métrica: conversão, CTR, ARPU, receita?

A métrica que você escolhe muda o teste estatístico, muda o tamanho amostral e muda a interpretação. Em marketing digital, as métricas caem basicamente em dois grupos.

Métricas binárias (proporções): conversão (converteu / não converteu), CTR (clicou / não clicou), taxa de open de e-mail, taxa de checkout. Aqui o teste natural é um teste de proporção entre os dois braços, e a nossa calculadora de teste A/B resolve direto. A vantagem prática é que proporções são fáceis de comunicar ("subiu de 4,0% para 4,8%") e não dependem de outliers gigantes.

Métricas contínuas (médias): ticket médio, ARPU, receita por visita, tempo de sessão, número de itens por carrinho. Aqui o teste apropriado é um teste t de Student (ou, mais robusto, um teste t de Welch). Médias têm um problema adicional: são puxadas por outliers. Uma única compra de R$ 15.000 num e-commerce pode mudar o ARPU médio de um braço inteiro. Em muitos casos vale rodar a comparação na mediana, em uma versão winsorizada da métrica, ou na receita por usuário com cap (por exemplo, truncando compras acima do percentil 99).

Receita total é métrica perigosa porque mistura duas coisas: quem comprou (proporção) e quanto cada um gastou (média condicional). Os dois podem se mover em direções opostas. Para análise mais limpa, separe o funil: conversão × ticket médio dado que converteu × receita por visita. Cada peça vira um teste menor, com leitura própria, e a soma faz mais sentido do que um número agregado.

Antes de começar: tamanho amostral e duração mínima

Esta é a parte que mais se pula — e a que mais explica resultados que "deram" e não se confirmaram depois. O tamanho amostral não é opcional; ele é a única defesa contra rodar um teste que nunca teria poder de detectar o efeito que você está procurando.

Para calcular o tamanho amostral de um teste A/B com métrica binária, você precisa de quatro números:

  • Baseline: a taxa atual do controle (ex.: 4,0% de conversão).
  • MDE — efeito mínimo detectável: o menor efeito que faria diferença na prática (ex.: 0,5 ponto percentual absoluto, ou seja, levar a variante para 4,5%).
  • Alfa: tolerância a falso positivo. Padrão: 5% (0,05) bicaudal.
  • Poder estatístico: chance de detectar o efeito se ele existir. Padrão: 80% (0,80).

Com esses quatro números, a calculadora de tamanho de amostra para teste A/B devolve quantos usuários você precisa por braço. Para o exemplo acima (baseline 4,0%, MDE 0,5 pp absoluto, alfa 5%, poder 80%), o resultado fica em torno de 12 mil visitas por braço — 24 mil no total. Se você roda com 2 mil por braço e "dá significativo", desconfie: provavelmente é falso positivo ou efeito muito maior do que o MDE planejado.

Sobre duração: independentemente do n, rode por pelo menos um ciclo semanal completo (7 ou 14 dias). Comportamento de consumidor varia entre segunda e sábado, entre dia útil e fim de semana, entre dia de pagamento e véspera de boleto. Um teste de 36 horas que pegou só terça e quarta tem amostra enviesada no tempo — mesmo que o n total esteja bom.

Em campanhas pagas no Meta ou Google Ads, há uma camada extra: o leilão e o algoritmo de entrega favorecem o anúncio que está performando melhor naquele momento. Se você divide a verba 50/50 mas o sistema entrega mais para um deles, sua amostra fica desbalanceada e a conclusão estatística trava. Aí o caminho é experimento controlado por audiência (split-testing nativo) em vez de só duplicar criativo.

Exemplo aplicado: landing page com 12.000 visitas por braço

Uma fintech brasileira testa duas versões da landing de captação de conta. A (controle): headline atual, com taxa histórica de 4,0% de conversão. B (variante): headline reescrito em benefício. O time calculou o tamanho amostral para MDE 0,5 pp, alfa 5%, poder 80% e chegou a 12 mil visitas por braço. Rodou por 10 dias e parou no n planejado.

Resultados observados:

  • Braço A: 480 conversões em 12.000 visitas → 4,00%
  • Braço B: 576 conversões em 12.000 visitas → 4,80%

O lift absoluto é de 0,80 ponto percentual; o lift relativo é de 20%. Um teste de proporção entre os dois braços devolve valor-p ≈ 0,003 e intervalo de confiança de 95% para a diferença entre cerca de 0,27 pp e 1,33 pp. Em outras palavras: a melhor estimativa pontual é +0,80 pp, mas o efeito real plausivelmente vai de +0,27 a +1,33 pp. Não passa por zero — diferença estatisticamente significativa.

Conversão por braço — IC 95% 0% 2% 4% 6% 4,0% A — controle n = 12.000 4,8% B — variante n = 12.000 Lift +0,80 pp (+20%) · p = 0,003
Comparação com IC 95%: o intervalo da diferença não toca zero, então o ganho é estatisticamente significativo.

Lendo o resultado: o time pode reportar que a variante venceu com lift de +0,80 pp (IC 95% entre +0,27 e +1,33 pp), p = 0,003. A faixa do IC é importante porque diz que o efeito real provavelmente está entre 0,27 e 1,33 pp. Se a sua tese só faz sentido econômico com pelo menos +0,5 pp, a parte inferior do IC (0,27) já te conta que existe risco real de o efeito ser menor que o necessário, mesmo com p-valor baixinho.

P-valor, intervalo de confiança e o erro de "espiar"

O valor-p é a probabilidade de observar uma diferença pelo menos tão grande quanto a sua, supondo que não exista efeito real. Se p < 0,05, você normalmente rejeita a hipótese nula de "não há diferença". O p-valor não é a probabilidade de a variante ser melhor, nem a probabilidade de o resultado se replicar — é só a probabilidade de o acaso ter produzido aquele dado se A = B.

O intervalo de confiança dá informação que o p-valor sozinho não dá: a magnitude plausível do efeito. Um IC de 95% para a diferença que vá de +0,1 pp a +1,5 pp diz que o efeito provavelmente é positivo, mas pode ser pequeno demais para valer o investimento. Um IC que toque ou cruze o zero (ex.: -0,2 pp a +0,9 pp) é o equivalente prático de "não significativo". Use a nossa calculadora de intervalo de confiança para inspecionar a faixa quando a plataforma só lhe dá um número.

O erro mais comum em times de marketing é peeking: olhar o teste em andamento todos os dias e parar assim que ele "dá significativo". Isso parece eficiente; estatisticamente é destrutivo. Se você olha 10 vezes e para na primeira vez em que p < 0,05, sua chance real de falso positivo deixa de ser 5% e sobe para algo em torno de 20% ou mais (Kohavi, Tang e Xu, 2020). O problema é que p-valores oscilam ao longo do tempo, e qualquer série suficientemente longa de "espiadas" vai cruzar o limiar em algum momento, por puro acaso.

Saídas razoáveis: (1) decidir o n antes e olhar só ao final; (2) usar métodos sequenciais legítimos (testes sequenciais, alpha spending, mSPRT), que ajustam o limiar conforme o tempo passa; ou (3) usar correções tipo Bonferroni para o número de espiadas que você fará. O importante é assumir o custo da espiada na hora de tomar decisão — o intuitivo "ué, já está claro" é exatamente o que infla o falso positivo.

Significância prática × significância estatística

Com amostra grande o suficiente, quase qualquer diferença vira estatisticamente significativa. Um lift de +0,1 pp na taxa de conversão pode ter p < 0,01 se você rodar com 500 mil usuários por braço — e ainda assim não valer a pena. Vale a pena perguntar:

  • O lift cobre o custo de implementar? Se a variante exige refazer o checkout, integrar um novo gateway ou retreinar o time de SAC, o efeito precisa ser grande para o ROI fechar.
  • O lift se mantém no longo prazo? Curiosidade de UI nova move métrica curta — taxa de clique no banner sobe no primeiro mês e cai depois. Sempre que possível, planeje uma janela de holdout para medir efeito persistente.
  • O lift é robusto entre segmentos? Um ganho médio de +0,5 pp pode esconder +2 pp em mobile e -1 pp em desktop, com mobile sendo a maioria. Decisões só na média podem queimar o segmento minoritário.

Em outras palavras: o teste estatístico diz "esse efeito provavelmente existe"; cabe a você decidir se o tamanho do efeito justifica a mudança. Significância prática é decisão de negócio, não de fórmula.

As 8 armadilhas mais comuns em testes A/B brasileiros

  1. Peeking. Parar o teste no primeiro dia em que dá significativo. Resultado: falso positivo inflado, decisão que não se sustenta em produção.
  2. Sample Ratio Mismatch (SRM). Você esperava 50/50 mas a divisão veio 53/47. Isso quase sempre indica bug de tagueamento, cache, redirect ou contaminação entre dispositivos. Antes de ler o resultado, rode um qui-quadrado de aderência (1 grau de liberdade) entre o split esperado e o observado. Se p < 0,01, o teste está quebrado.
  3. Teste em poucas horas sem cobertura de dias da semana. Comportamento de quem entra no site às 14h de quarta é diferente do de domingo à noite. Janela curta enviesa amostra no tempo.
  4. Inverter grupo e controle no meio. Trocar a definição de A e B porque "a outra variante está performando melhor" durante o teste. Isso transforma o experimento em coleção de sub-experimentos misturados — impossível de analisar com integridade.
  5. Mídia paga rodando em só um braço. A campanha promocional foi exposta a quem caiu em B mas não a quem caiu em A. Confusão de variáveis: a vitória da variante não é do criativo, é da campanha.
  6. Múltiplas métricas sem correção. Você olha conversão, CTR, ticket médio, tempo na página, bounce, e celebra a que "deu". Testar 20 métricas independentes a 5% gera, em média, uma métrica significativa só por acaso. Defina a primária antes de rodar e use Bonferroni ou similar nas secundárias. Para múltiplas variantes simultâneas (A/B/C), use o teste qui-quadrado antes de comparar duas a duas.
  7. Medir só conversão imediata e não retenção. Variante B converte 20% mais, mas três meses depois 40% desses clientes cancelam. Lift sumiu — e o ganho operacional foi negativo. Sempre que possível, acompanhe retenção/LTV depois do teste fechar.
  8. Ignorar segmentação relevante. Mobile × desktop, novo × recorrente, iOS × Android, navegador × app. Diferenças nesses cortes mudam a leitura. Faça pelo menos uma checagem segmentada antes de generalizar o resultado para 100% do tráfego.

Quando parar e como reportar o resultado

Critério padrão: pare quando atingir o tamanho amostral planejado e tiver rodado por pelo menos um ciclo semanal completo. Se o teste estiver "claramente perdendo" com prejuízo grande de métrica de guardrail (por exemplo, bounce explodiu, tempo de carregamento triplicou), pode parar antes — esse tipo de parada por dano é defensável.

O relatório que sustenta uma decisão tem cinco peças:

  1. Hipótese, métrica primária e direção esperada — escritas antes do teste começar.
  2. Amostra planejada e amostra observada por braço, com data de início e fim.
  3. Estimativa pontual (lift absoluto e relativo) + intervalo de confiança da diferença. O IC é o ponto-chave: ele expressa a incerteza honestamente.
  4. P-valor e nível de significância adotado. Não escreva só "deu sig"; mostre o número.
  5. Métricas de guardrail — o que não piorou, e o que mereceu vigilância.

Um time que reporta nessa estrutura acumula aprendizado entre testes. Um time que reporta só "venceu/não venceu" repete os mesmos erros e abandona a memória do que já experimentou.

Ferramentas brasileiras e internacionais

O ecossistema de teste A/B tem opções de todos os tamanhos:

  • Optimizely — plataforma enterprise, forte em SaaS e e-commerce grande.
  • VWO — boa interface, popular em times de CRO de médio porte.
  • GrowthBook — open source, instalável on-premise, com integração nativa a data warehouse (BigQuery, Snowflake, Redshift). Boa para times de produto que querem análise estatística transparente.
  • Convertize — mais voltada a landing pages e conversão imediata.
  • Google Optimize — descontinuada em 2023; sucessores naturais são plataformas próprias ou GA4 com integrações.
  • Meta e Google Ads — split testing nativo — útil para variantes de criativo, mas com as ressalvas de leilão mencionadas acima.

Independentemente da ferramenta, você pode usar as nossas calculadoras como cross-check independente: o teste A/B aceita a contagem de conversões e visitas direto e devolve lift, IC e p-valor; a calculadora de amostra dimensiona o teste antes de começar; e o teste de proporção é útil para checar análises post-hoc fora do dashboard da plataforma.

MDE detectável × n por braço (poder 80%, alfa 5%) 1k 3k 10k 30k 100k n por braço (escala log) 0 0,8 1,6 2,4 3,2 MDE (pp) 10k → ~1,0 pp 100k → ~0,3 pp
Quanto maior o n por braço, menor o efeito que o teste consegue detectar. Times com pouco tráfego mensal precisam testar mudanças maiores ou aceitar MDE maior.

Perguntas frequentes

Quanto tempo um teste A/B precisa rodar?

No mínimo um ciclo semanal completo (7 ou 14 dias), para cobrir variação entre dias da semana, e até atingir o tamanho amostral planejado para detectar o efeito mínimo desejado. Parar antes infla a taxa de falso positivo.

Posso decidir cedo se a variante já está "ganhando muito"?

Não, sem correção. Olhar o resultado várias vezes e parar quando "der significativo" (peeking) eleva o erro tipo I de 5% para 20% ou mais. Se quiser parar cedo, use métodos sequenciais como o teste sequencial de Wald, mSPRT ou correção de gastos alfa.

Como saber se meu teste tem poder suficiente?

Calcule o tamanho amostral antes de começar, definindo baseline, MDE, alfa e poder (geralmente 80%). Use a calculadora de tamanho de amostra para teste A/B para essa conta.

O que é Sample Ratio Mismatch?

É quando a divisão real entre controle e variante não bate com a planejada (esperava 50/50 e veio 53/47, por exemplo). Indica problema de instrumentação, cache, redirect ou contaminação — o teste deve ser invalidado até descobrir a causa. Rode um qui-quadrado de aderência entre o esperado e o observado para confirmar.

Posso testar 3 variantes ao mesmo tempo (A/B/C)?

Pode, mas precisa corrigir para múltiplas comparações (Bonferroni, Holm) ou usar um teste qui-quadrado para a tabela inteira antes de comparar duas a duas. Cada comparação extra aumenta o risco de falso positivo.

Conversão melhorou 5%, mas LTV piorou — o que faço?

Esse é o caso clássico de métrica primária errada. Conversão imediata é fácil de mover; LTV é o que paga a conta. Se a variante traz mais clientes piores, ela perde. Defina LTV ou margem como métrica de decisão, mesmo que demande mais amostra e tempo de observação.

Referências

  • Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
  • Kohavi, R., & Longbotham, R. (2015). Online Controlled Experiments and A/B Testing. In Encyclopedia of Machine Learning and Data Mining. Springer.
  • Colson, E. (2016). What Stitch Fix Algorithms Do. Stitch Fix Algorithms Blog.
  • Microsoft Experimentation Platform (ExP). Notas técnicas sobre testes sequenciais, sample ratio mismatch e métricas de guardrail.
  • Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Lawrence Erlbaum.

Pronto para rodar o seu teste com a cabeça certa?

Use a calculadora de teste A/B para validar o seu resultado fora do dashboard da plataforma.

Abrir a calculadora de teste A/B