Teste A/B em marketing digital: como ler resultados sem se enganar

Q: Quanto tempo um teste A/B precisa rodar?

No mínimo um ciclo semanal completo (7 ou 14 dias), para cobrir variação entre dias da semana, e até atingir o tamanho amostral planejado para detectar o efeito mínimo desejado. Parar antes infla a taxa de falso positivo.

Q: Posso decidir cedo se a variante já está 'ganhando muito'?

Não, sem correção. Olhar o resultado várias vezes e parar quando 'der significativo' (peeking) eleva o erro tipo I de 5% para 20% ou mais. Se quiser parar cedo, use métodos sequenciais como o teste sequencial de Wald ou correção de gastos alfa.

Q: Como saber se meu teste tem poder suficiente?

Calcule o tamanho amostral antes de começar, definindo baseline, MDE (efeito mínimo detectável), alfa e poder (geralmente 80%). Use a calculadora de tamanho de amostra para teste A/B para essa conta.

Q: O que é Sample Ratio Mismatch?

É quando a divisão real entre controle e variante não bate com a planejada (por exemplo, esperava 50/50 e veio 53/47). Indica problema de instrumentação ou contaminação — o teste deve ser invalidado até descobrir a causa.

Q: Posso testar 3 variantes ao mesmo tempo (A/B/C)?

Pode, mas precisa corrigir para múltiplas comparações (Bonferroni, Holm) ou usar um teste qui-quadrado para a tabela inteira antes de comparar duas a duas. Cada comparação extra aumenta o risco de falso positivo.

Q: Conversão melhorou 5%, mas LTV piorou — o que faço?

Esse é o caso clássico de métrica primária errada. Conversão imediata é fácil de mover; LTV é o que paga a conta. Se a variante traz mais clientes piores, ela perde. Defina LTV ou margem como métrica de decisão, mesmo que demande mais amostra.

Teste A/B virou rotina em times de growth, CRO, mídia paga e produto. Roda-se quase tudo: cor de botão, headline de landing, copy de anúncio, preço, oferta. O problema é que, na prática, boa parte desses testes é lida errado — para mais ou para menos — e leva o time a decisões que não se sustentam quando a variante vai para 100% do tráfego. Este guia mostra como rodar e ler um teste A/B com a cabeça certa, sem virar estatístico.

Por Vinícius Vianna · 12 de junho de 2026 · Leitura: ~12 min

O que é um teste A/B (e por que tantos times rodam errado)

Um teste A/B é um experimento controlado: você divide aleatoriamente o tráfego (ou os usuários) entre uma versão A — o controle, o que está no ar hoje — e uma versão B — a variante, com a mudança que você quer avaliar. No fim, compara uma métrica de interesse entre os dois braços e responde a uma pergunta simples: a diferença observada é grande o bastante para ser real, ou caberia dentro do ruído de quem cai em A e quem cai em B por acaso?

No marketing digital brasileiro, isso aparece em todo canto: e-commerce testando layout de PDP, fintech mudando fluxo de onboarding, time de mídia rodando criativos no Meta e no Google Ads, growth experimentando push notification, CRO ajustando microcopy de checkout. A facilidade de implementar dá uma falsa sensação de que o resultado é igualmente fácil de ler — e não é. Plataformas mostram um número grande e verde dizendo "B venceu com 96% de confiança" enquanto, por baixo do capô, o teste foi parado cedo, a amostra é pequena, o efeito é minúsculo, ou a métrica é só a primeira etapa do funil.

Antes de rodar qualquer coisa, vale fixar o que um teste A/B realmente entrega: uma estimativa do efeito médio de uma mudança sobre uma métrica, com uma margem de incerteza em torno desse efeito. Não é uma verdade absoluta, não é uma garantia de que a mesma diferença vai aparecer no mês que vem, e não dispensa pensar em mecanismo (por que a variante venceria?). A nossa calculadora de teste A/B trabalha exatamente nessa lógica: dá lift, valor-p e intervalo de confiança da diferença, deixando a decisão de negócio para você.

Definindo a hipótese: o que você está testando, mesmo?

Uma hipótese boa força o time a tomar três decisões antes de tocar no código:

Versão A (controle): a página, o anúncio ou o fluxo que está no ar hoje.
Versão B (variante): a mudança específica que você quer avaliar — não três mudanças juntas, porque você não vai conseguir saber qual delas moveu a agulha.
Métrica primária e direção esperada: o número que decide o teste, e se você espera que ele suba ou desça.

Uma hipótese mal escrita parece assim: "vamos testar uma nova landing page para ver se converte mais". Reescrita como hipótese testável: "trocar o headline atual ('Abra sua conta') por um centrado em benefício ('Sua conta digital em 3 minutos') vai aumentar a taxa de conversão da landing de 4,0% para pelo menos 4,5% — porque benefício explícito reduz fricção cognitiva no primeiro segundo da página." Agora dá para discutir mecanismo, dá para calcular amostra e dá para reportar resultado sem ambiguidade.

Vale também separar métrica primária (a que decide) de métricas secundárias (as que você acompanha para entender o que aconteceu) e métricas de guardrail (as que não podem piorar — bounce, tempo médio de resposta do site, reclamações no SAC, taxa de cancelamento). É comum a variante "ganhar" na primária e quebrar uma de guardrail. Sem essa separação prévia, o time tende a fabricar narrativa em cima do resultado.

Escolha da métrica: conversão, CTR, ARPU, receita?

A métrica que você escolhe muda o teste estatístico, muda o tamanho amostral e muda a interpretação. Em marketing digital, as métricas caem basicamente em dois grupos.

Métricas binárias (proporções): conversão (converteu / não converteu), CTR (clicou / não clicou), taxa de open de e-mail, taxa de checkout. Aqui o teste natural é um teste de proporção entre os dois braços, e a nossa calculadora de teste A/B resolve direto. A vantagem prática é que proporções são fáceis de comunicar ("subiu de 4,0% para 4,8%") e não dependem de outliers gigantes.

Métricas contínuas (médias): ticket médio, ARPU, receita por visita, tempo de sessão, número de itens por carrinho. Aqui o teste apropriado é um teste t de Student (ou, mais robusto, um teste t de Welch). Médias têm um problema adicional: são puxadas por outliers. Uma única compra de R$ 15.000 num e-commerce pode mudar o ARPU médio de um braço inteiro. Em muitos casos vale rodar a comparação na mediana, em uma versão winsorizada da métrica, ou na receita por usuário com cap (por exemplo, truncando compras acima do percentil 99).

Receita total é métrica perigosa porque mistura duas coisas: quem comprou (proporção) e quanto cada um gastou (média condicional). Os dois podem se mover em direções opostas. Para análise mais limpa, separe o funil: conversão × ticket médio dado que converteu × receita por visita. Cada peça vira um teste menor, com leitura própria, e a soma faz mais sentido do que um número agregado.

Antes de começar: tamanho amostral e duração mínima

Esta é a parte que mais se pula — e a que mais explica resultados que "deram" e não se confirmaram depois. O tamanho amostral não é opcional; ele é a única defesa contra rodar um teste que nunca teria poder de detectar o efeito que você está procurando.

Para calcular o tamanho amostral de um teste A/B com métrica binária, você precisa de quatro números:

Baseline: a taxa atual do controle (ex.: 4,0% de conversão).
MDE — efeito mínimo detectável: o menor efeito que faria diferença na prática (ex.: 0,5 ponto percentual absoluto, ou seja, levar a variante para 4,5%).
Alfa: tolerância a falso positivo. Padrão: 5% (0,05) bicaudal.
Poder estatístico: chance de detectar o efeito se ele existir. Padrão: 80% (0,80).

Com esses quatro números, a calculadora de tamanho de amostra para teste A/B devolve quantos usuários você precisa por braço. Para o exemplo acima (baseline 4,0%, MDE 0,5 pp absoluto, alfa 5%, poder 80%), o resultado fica em torno de 12 mil visitas por braço — 24 mil no total. Se você roda com 2 mil por braço e "dá significativo", desconfie: provavelmente é falso positivo ou efeito muito maior do que o MDE planejado.

Sobre duração: independentemente do n, rode por pelo menos um ciclo semanal completo (7 ou 14 dias). Comportamento de consumidor varia entre segunda e sábado, entre dia útil e fim de semana, entre dia de pagamento e véspera de boleto. Um teste de 36 horas que pegou só terça e quarta tem amostra enviesada no tempo — mesmo que o n total esteja bom.

Em campanhas pagas no Meta ou Google Ads, há uma camada extra: o leilão e o algoritmo de entrega favorecem o anúncio que está performando melhor naquele momento. Se você divide a verba 50/50 mas o sistema entrega mais para um deles, sua amostra fica desbalanceada e a conclusão estatística trava. Aí o caminho é experimento controlado por audiência (split-testing nativo) em vez de só duplicar criativo.

Exemplo aplicado: landing page com 12.000 visitas por braço

Uma fintech brasileira testa duas versões da landing de captação de conta. A (controle): headline atual, com taxa histórica de 4,0% de conversão. B (variante): headline reescrito em benefício. O time calculou o tamanho amostral para MDE 0,5 pp, alfa 5%, poder 80% e chegou a 12 mil visitas por braço. Rodou por 10 dias e parou no n planejado.

Resultados observados:

Braço A: 480 conversões em 12.000 visitas → 4,00%
Braço B: 576 conversões em 12.000 visitas → 4,80%

O lift absoluto é de 0,80 ponto percentual; o lift relativo é de 20%. Um teste de proporção entre os dois braços devolve valor-p ≈ 0,003 e intervalo de confiança de 95% para a diferença entre cerca de 0,27 pp e 1,33 pp. Em outras palavras: a melhor estimativa pontual é +0,80 pp, mas o efeito real plausivelmente vai de +0,27 a +1,33 pp. Não passa por zero — diferença estatisticamente significativa.

Comparação com IC 95%: o intervalo da diferença não toca zero, então o ganho é estatisticamente significativo.

Lendo o resultado: o time pode reportar que a variante venceu com lift de +0,80 pp (IC 95% entre +0,27 e +1,33 pp), p = 0,003. A faixa do IC é importante porque diz que o efeito real provavelmente está entre 0,27 e 1,33 pp. Se a sua tese só faz sentido econômico com pelo menos +0,5 pp, a parte inferior do IC (0,27) já te conta que existe risco real de o efeito ser menor que o necessário, mesmo com p-valor baixinho.

P-valor, intervalo de confiança e o erro de "espiar"

O valor-p é a probabilidade de observar uma diferença pelo menos tão grande quanto a sua, supondo que não exista efeito real. Se p < 0,05, você normalmente rejeita a hipótese nula de "não há diferença". O p-valor não é a probabilidade de a variante ser melhor, nem a probabilidade de o resultado se replicar — é só a probabilidade de o acaso ter produzido aquele dado se A = B.

O intervalo de confiança dá informação que o p-valor sozinho não dá: a magnitude plausível do efeito. Um IC de 95% para a diferença que vá de +0,1 pp a +1,5 pp diz que o efeito provavelmente é positivo, mas pode ser pequeno demais para valer o investimento. Um IC que toque ou cruze o zero (ex.: -0,2 pp a +0,9 pp) é o equivalente prático de "não significativo". Use a nossa calculadora de intervalo de confiança para inspecionar a faixa quando a plataforma só lhe dá um número.

O erro mais comum em times de marketing é peeking: olhar o teste em andamento todos os dias e parar assim que ele "dá significativo". Isso parece eficiente; estatisticamente é destrutivo. Se você olha 10 vezes e para na primeira vez em que p < 0,05, sua chance real de falso positivo deixa de ser 5% e sobe para algo em torno de 20% ou mais (Kohavi, Tang e Xu, 2020). O problema é que p-valores oscilam ao longo do tempo, e qualquer série suficientemente longa de "espiadas" vai cruzar o limiar em algum momento, por puro acaso.

Saídas razoáveis: (1) decidir o n antes e olhar só ao final; (2) usar métodos sequenciais legítimos (testes sequenciais, alpha spending, mSPRT), que ajustam o limiar conforme o tempo passa; ou (3) usar correções tipo Bonferroni para o número de espiadas que você fará. O importante é assumir o custo da espiada na hora de tomar decisão — o intuitivo "ué, já está claro" é exatamente o que infla o falso positivo.

Significância prática × significância estatística

Com amostra grande o suficiente, quase qualquer diferença vira estatisticamente significativa. Um lift de +0,1 pp na taxa de conversão pode ter p < 0,01 se você rodar com 500 mil usuários por braço — e ainda assim não valer a pena. Vale a pena perguntar:

O lift cobre o custo de implementar? Se a variante exige refazer o checkout, integrar um novo gateway ou retreinar o time de SAC, o efeito precisa ser grande para o ROI fechar.
O lift se mantém no longo prazo? Curiosidade de UI nova move métrica curta — taxa de clique no banner sobe no primeiro mês e cai depois. Sempre que possível, planeje uma janela de holdout para medir efeito persistente.
O lift é robusto entre segmentos? Um ganho médio de +0,5 pp pode esconder +2 pp em mobile e -1 pp em desktop, com mobile sendo a maioria. Decisões só na média podem queimar o segmento minoritário.

Em outras palavras: o teste estatístico diz "esse efeito provavelmente existe"; cabe a você decidir se o tamanho do efeito justifica a mudança. Significância prática é decisão de negócio, não de fórmula.

As 8 armadilhas mais comuns em testes A/B brasileiros

Peeking. Parar o teste no primeiro dia em que dá significativo. Resultado: falso positivo inflado, decisão que não se sustenta em produção.
Sample Ratio Mismatch (SRM). Você esperava 50/50 mas a divisão veio 53/47. Isso quase sempre indica bug de tagueamento, cache, redirect ou contaminação entre dispositivos. Antes de ler o resultado, rode um qui-quadrado de aderência (1 grau de liberdade) entre o split esperado e o observado. Se p < 0,01, o teste está quebrado.
Teste em poucas horas sem cobertura de dias da semana. Comportamento de quem entra no site às 14h de quarta é diferente do de domingo à noite. Janela curta enviesa amostra no tempo.
Inverter grupo e controle no meio. Trocar a definição de A e B porque "a outra variante está performando melhor" durante o teste. Isso transforma o experimento em coleção de sub-experimentos misturados — impossível de analisar com integridade.
Mídia paga rodando em só um braço. A campanha promocional foi exposta a quem caiu em B mas não a quem caiu em A. Confusão de variáveis: a vitória da variante não é do criativo, é da campanha.
Múltiplas métricas sem correção. Você olha conversão, CTR, ticket médio, tempo na página, bounce, e celebra a que "deu". Testar 20 métricas independentes a 5% gera, em média, uma métrica significativa só por acaso. Defina a primária antes de rodar e use Bonferroni ou similar nas secundárias. Para múltiplas variantes simultâneas (A/B/C), use o teste qui-quadrado antes de comparar duas a duas.
Medir só conversão imediata e não retenção. Variante B converte 20% mais, mas três meses depois 40% desses clientes cancelam. Lift sumiu — e o ganho operacional foi negativo. Sempre que possível, acompanhe retenção/LTV depois do teste fechar.
Ignorar segmentação relevante. Mobile × desktop, novo × recorrente, iOS × Android, navegador × app. Diferenças nesses cortes mudam a leitura. Faça pelo menos uma checagem segmentada antes de generalizar o resultado para 100% do tráfego.

Quando parar e como reportar o resultado

Critério padrão: pare quando atingir o tamanho amostral planejado e tiver rodado por pelo menos um ciclo semanal completo. Se o teste estiver "claramente perdendo" com prejuízo grande de métrica de guardrail (por exemplo, bounce explodiu, tempo de carregamento triplicou), pode parar antes — esse tipo de parada por dano é defensável.

O relatório que sustenta uma decisão tem cinco peças:

Hipótese, métrica primária e direção esperada — escritas antes do teste começar.
Amostra planejada e amostra observada por braço, com data de início e fim.
Estimativa pontual (lift absoluto e relativo) + intervalo de confiança da diferença. O IC é o ponto-chave: ele expressa a incerteza honestamente.
P-valor e nível de significância adotado. Não escreva só "deu sig"; mostre o número.
Métricas de guardrail — o que não piorou, e o que mereceu vigilância.

Um time que reporta nessa estrutura acumula aprendizado entre testes. Um time que reporta só "venceu/não venceu" repete os mesmos erros e abandona a memória do que já experimentou.

Ferramentas brasileiras e internacionais

O ecossistema de teste A/B tem opções de todos os tamanhos:

Optimizely — plataforma enterprise, forte em SaaS e e-commerce grande.
VWO — boa interface, popular em times de CRO de médio porte.
GrowthBook — open source, instalável on-premise, com integração nativa a data warehouse (BigQuery, Snowflake, Redshift). Boa para times de produto que querem análise estatística transparente.
Convertize — mais voltada a landing pages e conversão imediata.
Google Optimize — descontinuada em 2023; sucessores naturais são plataformas próprias ou GA4 com integrações.
Meta e Google Ads — split testing nativo — útil para variantes de criativo, mas com as ressalvas de leilão mencionadas acima.

Independentemente da ferramenta, você pode usar as nossas calculadoras como cross-check independente: o teste A/B aceita a contagem de conversões e visitas direto e devolve lift, IC e p-valor; a calculadora de amostra dimensiona o teste antes de começar; e o teste de proporção é útil para checar análises post-hoc fora do dashboard da plataforma.

Quanto maior o n por braço, menor o efeito que o teste consegue detectar. Times com pouco tráfego mensal precisam testar mudanças maiores ou aceitar MDE maior.

Perguntas frequentes

Quanto tempo um teste A/B precisa rodar?

No mínimo um ciclo semanal completo (7 ou 14 dias), para cobrir variação entre dias da semana, e até atingir o tamanho amostral planejado para detectar o efeito mínimo desejado. Parar antes infla a taxa de falso positivo.

Posso decidir cedo se a variante já está "ganhando muito"?

Não, sem correção. Olhar o resultado várias vezes e parar quando "der significativo" (peeking) eleva o erro tipo I de 5% para 20% ou mais. Se quiser parar cedo, use métodos sequenciais como o teste sequencial de Wald, mSPRT ou correção de gastos alfa.

Como saber se meu teste tem poder suficiente?

Calcule o tamanho amostral antes de começar, definindo baseline, MDE, alfa e poder (geralmente 80%). Use a calculadora de tamanho de amostra para teste A/B para essa conta.

O que é Sample Ratio Mismatch?

É quando a divisão real entre controle e variante não bate com a planejada (esperava 50/50 e veio 53/47, por exemplo). Indica problema de instrumentação, cache, redirect ou contaminação — o teste deve ser invalidado até descobrir a causa. Rode um qui-quadrado de aderência entre o esperado e o observado para confirmar.

Posso testar 3 variantes ao mesmo tempo (A/B/C)?

Pode, mas precisa corrigir para múltiplas comparações (Bonferroni, Holm) ou usar um teste qui-quadrado para a tabela inteira antes de comparar duas a duas. Cada comparação extra aumenta o risco de falso positivo.

Conversão melhorou 5%, mas LTV piorou — o que faço?

Esse é o caso clássico de métrica primária errada. Conversão imediata é fácil de mover; LTV é o que paga a conta. Se a variante traz mais clientes piores, ela perde. Defina LTV ou margem como métrica de decisão, mesmo que demande mais amostra e tempo de observação.

Referências

Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
Kohavi, R., & Longbotham, R. (2015). Online Controlled Experiments and A/B Testing. In Encyclopedia of Machine Learning and Data Mining. Springer.
Colson, E. (2016). What Stitch Fix Algorithms Do. Stitch Fix Algorithms Blog.
Microsoft Experimentation Platform (ExP). Notas técnicas sobre testes sequenciais, sample ratio mismatch e métricas de guardrail.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2ª ed.). Lawrence Erlbaum.