Por que escolher o teste certo importa
Toda análise estatística termina em um número — quase sempre o valor-p — que sustenta uma conclusão: "há diferença", "não há diferença", "as variáveis estão associadas". Mas esse número só é confiável se o teste que o produziu for o teste correto para o tipo de dado e para o desenho do estudo. Usar o teste errado não gera um aviso de erro: ele devolve um valor-p de aparência perfeitamente normal — e completamente enganoso.
As consequências são concretas. Um teste inadequado pode declarar significativa uma diferença que não existe, fazendo você mudar um protocolo, lançar um produto ou publicar uma conclusão sem base real. Ou pode esconder uma diferença verdadeira, levando a descartar um tratamento que de fato funciona. Em um TCC ou artigo, o teste errado é um dos motivos mais frequentes de correção exigida pela banca ou pelos revisores.
A boa notícia é que escolher o teste não é um ato de memória nem de sorte. É o resultado de uma sequência curta de perguntas objetivas sobre os seus dados. Responda a elas na ordem certa e o teste praticamente se escolhe sozinho. Este guia percorre essas perguntas e, ao final, traz uma tabela-resumo que liga cada situação à calculadora correspondente.
As perguntas que definem o teste
Antes de pensar em qualquer fórmula, responda a cinco perguntas. Elas funcionam como um roteiro: cada resposta elimina opções e estreita o caminho até um único teste.
1. Que tipo de dado você tem? Esta é a pergunta mais importante. Dados categóricos (ou qualitativos) representam categorias que você conta: sexo, região, "comprou ou não comprou", "curou ou não curou". O resultado bruto é uma contagem ou uma proporção. Dados numéricos (ou quantitativos) são valores que você mede: altura, tempo, escore de satisfação, faturamento, pressão arterial. O resultado bruto é uma média. Aplicar um teste de média a dados categóricos — ou o contrário — invalida a análise logo de saída.
2. O que você quer fazer com esse dado? Existem três objetivos típicos. Estimar um valor da população — por exemplo, "qual é a satisfação média dos clientes?" — pede um intervalo de confiança, não um teste. Comparar com um valor de referência — "a média do meu processo é diferente da meta de 100?" — pede um teste de uma amostra. Comparar grupos entre si — "o grupo A difere do grupo B?" — pede um teste de duas ou mais amostras.
3. Quantos grupos você está comparando? Se a resposta for comparar grupos, conte-os. Um grupo contra um valor fixo, dois grupos entre si, ou três ou mais grupos simultaneamente. O número de grupos muda o teste: comparar dois grupos é tarefa do teste t; comparar três ou mais é tarefa da ANOVA. Não se deve comparar muitos grupos dois a dois com vários testes t, porque isso infla a chance de um falso positivo.
4. Os grupos são independentes ou pareados? Grupos independentes são formados por indivíduos diferentes, sem ligação entre uma medida e outra — pacientes do grupo A e pacientes do grupo B, por exemplo. Grupos pareados (ou dependentes) trazem medidas ligadas: a mesma pessoa avaliada antes e depois de uma intervenção, ou pares formados de propósito. Dados pareados têm um teste próprio, que aproveita a ligação entre as medidas e é mais sensível.
5. Os pressupostos paramétricos valem? Os testes paramétricos clássicos — teste t, ANOVA — supõem que os dados numéricos seguem aproximadamente uma distribuição normal e, ao comparar grupos, que as variâncias são parecidas. Quando esses pressupostos se sustentam, os testes paramétricos são os mais potentes. Quando não — amostra pequena, distribuição torta, valores extremos —, existem versões não-paramétricas que não dependem da normalidade.
Tipo de dado → objetivo → número de grupos → independentes ou pareados → pressupostos. Responda nessa ordem e cada pergunta corta metade das opções. Ao chegar na última, em geral resta um único teste — e ele está na tabela-resumo no fim deste guia.
Dados categóricos: proporções e qui-quadrado
Quando o dado é uma categoria que você conta, e não um número que você mede, o universo de testes muda completamente. Aqui não há médias nem desvios padrão: há contagens e proporções. Dois testes do site cobrem a maior parte dessas situações, e a escolha entre eles depende do que você quer descobrir.
Use o teste de proporção quando o foco é uma proporção em si. Ele resolve dois casos. O primeiro é comparar duas proporções: a taxa de conversão da página A difere da taxa da página B? A proporção de pacientes que aderiram ao tratamento difere entre dois protocolos? O segundo é comparar uma proporção com um valor de referência: a taxa de defeitos do meu processo, de 3%, é diferente da meta contratual de 2%?
Use o qui-quadrado quando o foco é a associação entre duas variáveis categóricas organizadas em uma tabela de contingência. A pergunta típica é "a região do país está associada à preferência de marca?" ou "o tipo de tratamento está relacionado ao desfecho clínico?". O qui-quadrado brilha quando há mais de duas categorias em pelo menos uma das variáveis — uma situação que o teste de proporção não cobre.
Quando você compara apenas duas proporções, montar uma tabela 2x2 e rodar o qui-quadrado dá exatamente o mesmo valor-p do teste de proporção — em uma tabela 2x2 os dois testes são matematicamente equivalentes. Escolha o teste de proporção quando quiser também o tamanho do efeito entre as duas taxas; escolha o qui-quadrado quando houver três categorias ou mais.
Um caso particular e muito comum de comparação de duas proporções é o teste A/B de marketing e produto. Para esse cenário específico — duas versões, uma métrica de conversão — o site tem uma ferramenta dedicada, a calculadora de teste A/B, que entrega o uplift e a confiança no resultado já no vocabulário de quem faz experimentos.
Dados numéricos: comparar com um valor de referência
Passemos aos dados numéricos. O primeiro objetivo possível não é comparar dois grupos, e sim confrontar a média de um único grupo com um valor fixo conhecido — uma meta, uma norma, um padrão histórico. Exemplos: o peso médio dos pacotes saídos da linha é diferente dos 500 g declarados? O tempo médio de atendimento do call center difere da meta de 4 minutos?
Há duas ferramentas para isso, e a escolha entre elas depende de uma pergunta única: você conhece o desvio padrão da população?
- Desvio padrão da população conhecido → teste z. É o caso quando um processo é tão bem documentado que a variabilidade populacional (σ) é considerada um valor fixo e conhecido. Na prática, isso é raro.
- Desvio padrão estimado da própria amostra → teste t de uma amostra. É o caso quase universal: você não conhece o σ da população e o calcula a partir dos próprios dados coletados. O teste t incorpora a incerteza extra dessa estimativa.
Na imensa maioria das pesquisas reais, o desvio padrão da população é desconhecido — então o teste t de uma amostra é a escolha padrão. O teste z fica reservado a contextos industriais muito controlados ou a exercícios didáticos. Em amostras grandes os dois resultados praticamente coincidem, mas em amostras pequenas o teste t é o único correto.
Dados numéricos: comparar dois grupos
Este é, de longe, o cenário mais frequente: você tem uma variável numérica e quer saber se a sua média difere entre dois grupos. A dor média é menor com o curativo A ou com o B? O tempo no site é maior na versão nova ou na antiga? O faturamento médio por loja mudou depois do treinamento?
Duas decisões definem o teste. A primeira é se os grupos são independentes ou pareados; a segunda é se os pressupostos paramétricos se sustentam.
Grupos independentes. São pessoas diferentes em cada grupo, sem ligação entre as medidas. Se os dados numéricos forem aproximadamente normais, use o teste t para amostras independentes. Ele compara as duas médias e devolve o valor-p e o intervalo de confiança da diferença.
Grupos pareados. As medidas estão ligadas: a mesma pessoa antes e depois, ou pares casados de propósito. Aqui o teste correto é o teste t pareado, que analisa as diferenças dentro de cada par. Tratar dados pareados como independentes desperdiça a maior força do desenho pareado e costuma esconder um efeito real.
Quando a normalidade falha. Se a amostra é pequena, há valores extremos ou a distribuição é claramente assimétrica, troque o teste t pela alternativa não-paramétrica, reunida no site na calculadora de Wilcoxon e Mann-Whitney. Para dois grupos independentes, o teste é o de Mann-Whitney; para dois grupos pareados, é o Wilcoxon de postos sinalizados. Ambos trabalham com a ordem dos valores em vez das médias e não exigem distribuição normal.
O erro mais caro nesta etapa é confundir dados pareados com independentes. "Antes e depois" na mesma pessoa é sempre pareado. Usar o teste para grupos independentes nesse caso joga fora a informação de que cada par começa de um ponto de partida diferente — e isso, em geral, derruba a sensibilidade do teste e pode mascarar uma diferença que existe.
Dados numéricos: comparar três ou mais grupos
Quando há uma variável numérica e três grupos ou mais para comparar, surge uma tentação perigosa: rodar vários testes t, dois a dois. Não faça isso. Cada teste t carrega uma chance de falso positivo; encadeados, esses riscos se acumulam e a probabilidade de "achar" uma diferença inexistente dispara. A solução é um teste único que avalia todos os grupos de uma vez.
Esse teste é a ANOVA (análise de variância), disponível na calculadora de ANOVA e k amostras. A ANOVA responde a uma pergunta global: "há alguma diferença entre as médias destes grupos?". Ela é a extensão natural do teste t para três ou mais grupos e supõe, como ele, que os dados são aproximadamente normais e que as variâncias dos grupos são parecidas.
Quando esses pressupostos não se sustentam — distribuição assimétrica, amostras pequenas, presença de valores extremos —, a alternativa é o Kruskal-Wallis, também disponível na mesma calculadora de k amostras. O Kruskal-Wallis é o equivalente não-paramétrico da ANOVA: trabalha com os postos dos valores e não exige normalidade. É, na prática, a generalização do teste de Mann-Whitney para três grupos ou mais.
Vale notar o que esses testes não dizem: tanto a ANOVA quanto o Kruskal-Wallis informam apenas que existe alguma diferença entre os grupos, sem apontar quais pares diferem. Identificar os pares específicos é tarefa das chamadas comparações múltiplas (testes post-hoc), uma etapa que vem depois e só faz sentido quando o teste global já indicou significância.
Paramétrico ou não-paramétrico?
A escolha entre a versão paramétrica e a não-paramétrica de um teste apareceu em todas as seções anteriores. Vale agora reuni-la em um só lugar, porque é uma das decisões que mais geram dúvida.
Testes paramétricos — teste z, teste t, ANOVA — comparam médias e se apoiam em pressupostos sobre a distribuição dos dados, sobretudo a normalidade. Ao comparar grupos, esperam também que as variâncias sejam semelhantes (homogeneidade). Quando esses pressupostos se sustentam, os testes paramétricos são os mais potentes: detectam diferenças reais com amostras menores.
Testes não-paramétricos — Mann-Whitney, Wilcoxon, Kruskal-Wallis — não exigem normalidade. Em vez de usar os valores brutos, eles os ordenam e trabalham com os postos (a posição de cada valor na fila ordenada). Por isso são robustos a valores extremos e funcionam bem com distribuições tortas, ao custo de um pouco menos de potência quando os dados seriam normais.
Prefira a versão não-paramétrica quando: a amostra é pequena (poucas dezenas de casos) e você não consegue confirmar a normalidade; existem valores extremos que puxam a média; a distribuição é claramente assimétrica (rendas, tempos de espera, contagens); ou o dado é ordinal — uma escala de posições, como "ruim, regular, bom, ótimo", sem distância numérica garantida entre os níveis. Com amostras grandes e distribuição razoavelmente simétrica, o teste paramétrico é seguro e mais sensível.
Os pares são fáceis de memorizar: o Mann-Whitney substitui o teste t para grupos independentes; o Wilcoxon de postos sinalizados substitui o teste t pareado; o Kruskal-Wallis substitui a ANOVA. Em todos eles, a hipótese nula deixa de ser "as médias são iguais" e passa a ser, em essência, "as distribuições são iguais" — uma diferença sutil de interpretação que vale registrar no relatório.
Estimar em vez de testar
Nem toda pergunta estatística é um teste de hipótese. Muitas vezes você não quer comparar nada — quer apenas estimar um valor da população com uma margem de incerteza. "Qual é a satisfação média dos clientes?" "Qual é a prevalência de um problema?" Para essas perguntas, o instrumento é o intervalo de confiança, não um valor-p.
O intervalo de confiança entrega uma faixa de valores plausíveis para o parâmetro real da população, em vez de uma resposta de "sim ou não". Ele é mais informativo que o teste em si: mostra ao mesmo tempo o tamanho do efeito e a precisão da estimativa. Um intervalo estreito indica uma estimativa precisa; um intervalo largo, muita incerteza — em geral por amostra pequena.
E há um momento em que a estatística precisa entrar antes da coleta de dados: o planejamento do tamanho da amostra. Coletar de menos produz um estudo sem poder para detectar o efeito; coletar de mais desperdiça tempo e recursos. Para dimensionar a amostra de forma adequada, o site oferece a calculadora de tamanho de amostra para estudos em geral e a calculadora de amostra para teste A/B, voltada especificamente a experimentos de conversão.
Depois de identificar o teste certo pelo roteiro deste guia, abra a calculadora correspondente:
- Calculadora de teste t — compare uma média com um valor de referência ou duas médias entre si.
- Calculadora de qui-quadrado — verifique a associação entre duas variáveis categóricas.
- Calculadora de ANOVA e k amostras — compare três ou mais grupos, com a opção de Kruskal-Wallis.
- Calculadora de intervalo de confiança — estime um valor da população com margem de incerteza.
Os links acima levam a conteúdos do próprio site. Caso passem a incluir indicações de parceiros, esta seção sinalizará a parceria.
Tabela-resumo: qual teste usar
A tabela abaixo condensa todo o guia. Encontre a linha que descreve a sua situação, confira o tipo de dado e siga para o teste recomendado — o nome de cada calculadora é um link direto para a ferramenta.
| Situação | Tipo de dado | Teste recomendado | Calculadora |
|---|---|---|---|
| Comparar duas proporções (ex.: conversão A vs. B) | Categórico | Teste z de duas proporções | Teste de Proporção |
| Comparar uma proporção com um valor de referência | Categórico | Teste de proporção de uma amostra | Teste de Proporção |
| Associação entre duas variáveis categóricas | Categórico | Qui-quadrado de independência | Qui-quadrado |
| Comparar uma média com um valor de referência (σ conhecido) | Numérico | Teste z de uma amostra | Teste Z |
| Comparar uma média com um valor de referência (σ desconhecido) | Numérico | Teste t de uma amostra | Teste t de Student |
| Comparar duas médias de grupos independentes | Numérico | Teste t para amostras independentes | Teste t de Student |
| Comparar duas médias pareadas (antes e depois) | Numérico | Teste t pareado | Teste t de Student |
| Comparar dois grupos sem normalidade | Numérico ou ordinal | Mann-Whitney (independentes) ou Wilcoxon (pareados) | Wilcoxon e Mann-Whitney |
| Comparar três ou mais grupos (dados normais) | Numérico | ANOVA de um fator | ANOVA e k amostras |
| Comparar três ou mais grupos sem normalidade | Numérico ou ordinal | Kruskal-Wallis | ANOVA e k amostras |
| Estimar uma média ou proporção da população | Numérico ou categórico | Intervalo de confiança | Intervalo de Confiança |
Erros comuns na escolha do teste
Mesmo com o roteiro em mãos, alguns deslizes se repetem. Conhecê-los de antemão protege a sua análise:
- Aplicar teste de média a dados categóricos. O erro de origem. "Comprou ou não comprou" é categórico e pede teste de proporção ou qui-quadrado, nunca teste t. Defina o tipo de variável antes de qualquer outra coisa.
- Ignorar o pareamento dos dados. Medidas "antes e depois" na mesma pessoa são pareadas. Tratá-las como independentes desperdiça informação e costuma esconder o efeito. O mesmo vale para pares casados de propósito.
- Comparar três grupos ou mais com vários testes t. Cada teste t extra aumenta a chance de um falso positivo. Para três grupos ou mais, use a ANOVA ou o Kruskal-Wallis, que avaliam tudo de uma vez.
- Insistir no teste paramétrico com pressupostos violados. Amostra pequena e torta, com valores extremos, não é terreno para o teste t. Quando a normalidade não se sustenta, mude para a versão de postos.
- Usar teste z quando o desvio padrão é desconhecido. Se você estimou o desvio padrão a partir da própria amostra, o teste correto é o t, não o z — sobretudo com amostras pequenas.
- Confundir significância com tamanho do efeito. Escolher o teste certo entrega um valor-p confiável, mas o valor-p não diz se a diferença é grande. Olhe sempre o tamanho do efeito ou o intervalo de confiança para julgar a relevância prática.
- Escolher o teste depois de ver os dados. Decidir o teste só após espiar qual deles "dá significativo" enviesa o resultado. Defina o teste a partir do tipo de dado e do desenho do estudo, de preferência antes da coleta.
Perguntas frequentes
Como sei qual teste estatístico usar?
Responda a quatro perguntas na ordem: que tipo de dado você tem (categórico ou numérico), o que você quer fazer (estimar ou comparar), quantos grupos está comparando (1, 2 ou 3 ou mais) e se os grupos são independentes ou pareados. As respostas levam diretamente a um teste. Em caso de dúvida sobre os pressupostos, consulte a tabela-resumo deste guia.
Qual a diferença entre teste paramétrico e não-paramétrico?
Testes paramétricos, como o teste t e a ANOVA, supõem que os dados seguem aproximadamente uma distribuição normal e comparam médias. Testes não-paramétricos, como Wilcoxon e Mann-Whitney e o Kruskal-Wallis, não exigem normalidade e trabalham com a ordem (postos) dos valores. Use a versão não-paramétrica quando a amostra é pequena, há valores extremos ou a distribuição é claramente assimétrica.
Quando usar qui-quadrado e quando usar teste de proporção?
Use o teste de proporção quando quer comparar duas proporções diretamente ou comparar uma proporção com um valor de referência. Use o qui-quadrado quando quer verificar a associação entre duas variáveis categóricas em uma tabela de contingência, especialmente com mais de duas categorias. Em uma tabela 2x2, os dois testes levam à mesma conclusão.
Devo usar teste z ou teste t para comparar com um valor de referência?
O que muda entre grupos independentes e pareados?
Grupos independentes são formados por pessoas diferentes, sem ligação entre uma medida e outra. Grupos pareados são medidas ligadas, como a mesma pessoa avaliada antes e depois, ou pares casados por características. Dados pareados exigem o teste t pareado ou o Wilcoxon de postos sinalizados; usar o teste para grupos independentes nesse caso desperdiça informação e pode levar à conclusão errada.
E se eu escolher o teste errado?
Escolher o teste errado pode produzir um valor-p incorreto e levar a uma conclusão equivocada: declarar uma diferença que não existe ou ignorar uma diferença real. Os erros mais comuns são aplicar teste de média a dados categóricos, ignorar o pareamento dos dados e insistir em um teste paramétrico quando os pressupostos foram violados. Definir o tipo de dado e o desenho do estudo antes de calcular evita a maioria desses erros.