O que é comparar k amostras
Muitas perguntas de pesquisa envolvem mais de dois grupos. Três métodos de ensino produzem notas diferentes? Quatro fertilizantes geram colheitas distintas? Cinco versões de uma página de venda têm tempos de permanência diferentes? Em todos esses casos você quer comparar k grupos — onde k é três, quatro, cinco ou mais — e descobrir se as médias deles são realmente diferentes ou se a variação observada é apenas acaso amostral.
O teste t resolve bem a comparação de dois grupos. Mas, a partir de três, ele deixa de ser a ferramenta adequada — e o motivo é mais sério do que parece. Esta calculadora oferece os dois testes corretos para o problema de k amostras: a ANOVA de uma via, paramétrica, e o teste de Kruskal-Wallis, não-paramétrico. Os dois trabalham sobre exatamente os mesmos dados — basta trocar o tipo de análise no topo da calculadora.
A pergunta que ambos respondem é a mesma: existe pelo menos um grupo cuja distribuição difere dos demais? A diferença está nas suposições que cada um exige, como veremos adiante.
Por que não fazer vários testes t
A tentação é natural: com três grupos A, B e C, por que não rodar três testes t — A contra B, A contra C, B contra C — e olhar os resultados? O problema tem nome técnico: inflação do erro tipo I.
Cada teste de hipótese carrega um risco de falso positivo: a chance de declarar uma diferença que, na verdade, não existe. Com o nível de significância usual de 5%, esse risco é de 0,05 por teste. Quando você faz vários testes, esses riscos se acumulam.
Com 3 grupos são 3 comparações de pares; com 4 grupos, 6; com 5 grupos, 10. Se cada teste tem 5% de risco de falso positivo, a probabilidade de cometer pelo menos um erro sobe rápido: já com 3 testes independentes ela chega a cerca de 14%, e com 10 testes ultrapassa 40%. O "nível de significância de 5%" deixa de valer para a conclusão como um todo.
A ANOVA resolve isso de forma elegante: faz uma única comparação global, com um único valor-p, mantendo o erro tipo I no patamar escolhido (5%, por exemplo). Só depois, e apenas se essa comparação global for significativa, é que se investiga quais pares diferem — com técnicas próprias, descritas na seção sobre testes post-hoc. Reserve o teste t para quando houver de fato apenas dois grupos a comparar.
ANOVA de uma via
O nome análise de variância parece estranho — afinal, queremos comparar médias, não variâncias. A genialidade do método está justamente aí: a ANOVA descobre se as médias diferem analisando duas fontes de variação dos dados.
A primeira é a variação entre os grupos: o quanto as médias dos grupos se afastam da média geral. A segunda é a variação dentro dos grupos: o quanto os valores individuais oscilam em torno da média do seu próprio grupo — é o "ruído" natural dos dados. A estatística do teste, chamada F, é simplesmente a razão entre as duas:
Em termos mais formais, a variação entre grupos é a soma de quadrados entre (SQ entre) dividida pelos seus graus de liberdade; o mesmo vale para a variação dentro. Essas razões são os quadrados médios (QM):
Os graus de liberdade têm duas peças. Os graus de liberdade entre grupos valem k − 1 (número de grupos menos 1). Os graus de liberdade dentro dos grupos valem N − k (total de observações menos o número de grupos). Com o F e esse par de graus de liberdade, a calculadora consulta a distribuição F e obtém o valor-p: a probabilidade de observar um F tão grande se, na realidade, todas as médias fossem iguais.
Kruskal-Wallis: a alternativa não-paramétrica
A ANOVA é poderosa, mas tem um preço: ela pressupõe que os dados de cada grupo seguem aproximadamente uma distribuição normal e que as variâncias são parecidas. Quando esses pressupostos falham — dados muito assimétricos, presença de valores extremos, amostras pequenas — ou quando a variável é apenas ordinal (notas de satisfação de 1 a 5, por exemplo), a ANOVA pode dar conclusões frágeis.
O teste de Kruskal-Wallis é a alternativa não-paramétrica. Em vez de trabalhar com os valores originais, ele os converte em postos: junta todas as observações de todos os grupos, ordena-as do menor para o maior e substitui cada valor pela sua posição (1, 2, 3, …). A análise passa a ser feita sobre esses postos.
A lógica é intuitiva. Se os grupos forem equivalentes, os postos altos e baixos devem se espalhar de forma parecida entre eles — a soma de postos de cada grupo será proporcional ao seu tamanho. Se um grupo concentra os valores mais altos (postos grandes) e outro os mais baixos, a estatística do teste, chamada H, cresce. Sob a hipótese de grupos iguais, o H segue aproximadamente uma distribuição qui-quadrado com k − 1 graus de liberdade, e daí sai o valor-p.
Como usa apenas a ordem dos dados, o Kruskal-Wallis é robusto a valores extremos e não exige normalidade. Ele é, para três ou mais grupos, o equivalente do que o teste de Mann-Whitney é para dois grupos. O preço é uma perda modesta de poder estatístico quando os dados de fato são normais — nesse caso, a ANOVA detecta diferenças com um pouco mais de sensibilidade.
Pressupostos da ANOVA
Para que o valor-p da ANOVA seja confiável, três condições devem ser razoavelmente atendidas:
- Normalidade — dentro de cada grupo, os dados (mais precisamente, os resíduos) seguem aproximadamente uma distribuição normal. Com amostras maiores, pequenos desvios deixam de ser problema, graças ao teorema central do limite.
- Homogeneidade de variâncias — também chamada de homocedasticidade: os grupos têm variâncias semelhantes. Testes como o de Levene ajudam a verificar essa condição. Quando ela falha de forma clara, existem variantes como a ANOVA de Welch.
- Independência — cada observação é independente das demais, dentro e entre os grupos. Esse é o pressuposto mais importante e o mais difícil de corrigir depois: ele depende de um bom desenho do estudo.
Se os dados são muito assimétricos, têm valores extremos influentes ou são ordinais, troque para o teste de Kruskal-Wallis no topo da calculadora. Ele responde à mesma pergunta sem exigir normalidade nem variâncias iguais — basta um clique, sobre os mesmos dados.
E depois? Os testes post-hoc
Um resultado significativo na ANOVA ou no Kruskal-Wallis traz uma conclusão importante, mas incompleta: ele afirma que pelo menos um grupo difere — sem dizer qual. Com quatro grupos, a diferença pode estar em um único par, ou em vários.
Para identificar exatamente onde estão as diferenças, usam-se os testes post-hoc (ou comparações múltiplas). Eles comparam os pares de grupos, mas — e este é o ponto — ajustam o nível de significância para que a inflação do erro tipo I não volte a ocorrer. Os mais conhecidos são:
- Teste de Tukey (HSD) — o mais comum após uma ANOVA significativa. Compara todos os pares de médias controlando o erro global.
- Correção de Bonferroni — simples e geral: divide o nível de significância pelo número de comparações. É conservadora.
- Teste de Dunn — a opção post-hoc usual após um Kruskal-Wallis significativo, trabalhando sobre os postos.
A regra de ouro é a sequência: primeiro o teste global (ANOVA ou Kruskal-Wallis); só se ele for significativo, parte-se para o post-hoc. Sem essa porta de entrada, voltaríamos ao problema das comparações múltiplas descontroladas.
Como interpretar o resultado
A calculadora devolve um cartão com a conclusão e um conjunto de indicadores. Na ANOVA, eles são:
- Estatística F — a razão entre a variância entre grupos e a variância dentro deles. Valores próximos de 1 sugerem médias parecidas; valores altos, médias diferentes.
- Graus de liberdade entre grupos — valem k − 1 e, junto com os de dentro, definem a distribuição F.
- Graus de liberdade dentro dos grupos — valem N − k.
- Valor-p — a probabilidade de ver um F tão grande por acaso. Se for menor que o nível de significância (em geral 0,05), pelo menos um grupo difere.
- Eta-quadrado (η²) — o tamanho do efeito: a fração da variação total explicada pelos grupos. Em torno de 0,01 é pequeno, 0,06 é médio e 0,14 ou mais é grande.
- Número de grupos — quantos grupos entraram na análise.
No Kruskal-Wallis, os indicadores são a estatística H, os graus de liberdade (k − 1), o valor-p, o número de grupos e o total de observações. A leitura do valor-p é a mesma: abaixo do nível de significância, há diferença entre os grupos — só que, aqui, a conclusão é sobre os postos (a tendência de um grupo apresentar valores sistematicamente maiores ou menores).
Um valor-p pequeno indica que pelo menos um grupo se destaca — não que todos os grupos diferem entre si. Para saber exatamente quais pares são diferentes, é preciso um teste post-hoc. E lembre-se de olhar o tamanho do efeito: com amostras grandes, diferenças triviais ficam "significativas".
Exemplo resolvido
Uma escola comparou três métodos de estudo em três turmas de cinco alunos cada e registrou a nota final de cada aluno. A pergunta: o método de estudo influencia a nota média?
| Método | Notas | Média |
|---|---|---|
| Grupo 1 | 85, 88, 82, 90, 87 | 86,4 |
| Grupo 2 | 78, 75, 80, 82, 79 | 78,8 |
| Grupo 3 | 92, 95, 90, 94, 91 | 92,4 |
- Médias e média geral: as médias dos grupos são 86,4, 78,8 e 92,4; a média geral das 15 notas é 85,87.
- Variação entre grupos: as médias dos grupos estão bem afastadas da média geral, o que gera uma soma de quadrados entre grande — sinal de que os métodos podem diferir.
- Variação dentro dos grupos: dentro de cada turma as notas oscilam pouco, então a soma de quadrados dentro é pequena.
- Estatística F: com a variância entre grupos muito maior que a variância dentro deles, o F resultante é alto e o valor-p fica bem abaixo de 0,001.
Como o valor-p é muito menor que 0,05, a conclusão é que pelo menos um método difere dos demais: o método de estudo está associado à nota. O eta-quadrado, próximo de 0,9, indica um efeito grande — boa parte da variação nas notas é explicada pelo grupo. A ANOVA, porém, não diz se os três métodos diferem entre si ou apenas um deles; isso exigiria um teste post-hoc. Use o botão "Preencher com exemplo" para ver o cálculo completo na calculadora.
Perguntas frequentes
O que é a ANOVA?
A ANOVA (análise de variância) de uma via é um teste de hipótese que compara as médias de três ou mais grupos de uma só vez. Ela verifica se pelo menos um grupo difere dos demais comparando a variação entre os grupos com a variação dentro deles.
Por que não fazer vários testes t em vez da ANOVA?
Porque cada teste t carrega um risco de falso positivo, e esses riscos se acumulam quando você faz muitos testes. Comparar todos os pares de três grupos eleva a chance de erro tipo I para cerca de 14%, bem acima dos 5% pretendidos. A ANOVA faz uma única comparação global e mantém o erro sob controle. Veja o teste t para o caso de apenas dois grupos.
Qual a diferença entre ANOVA e Kruskal-Wallis?
A ANOVA é paramétrica: pressupõe dados aproximadamente normais e variâncias semelhantes. O Kruskal-Wallis é a alternativa não-paramétrica, baseada em postos, indicada quando esses pressupostos não se sustentam ou quando os dados são ordinais. É o equivalente, para k grupos, do teste de Mann-Whitney.
O que significa um resultado significativo?
Um valor-p abaixo do nível de significância indica que pelo menos um grupo difere dos outros. Nem a ANOVA nem o Kruskal-Wallis dizem qual grupo difere — para isso são usados testes post-hoc, como o teste de Tukey ou o de Dunn.
O que é o eta-quadrado?
O eta-quadrado (η²) é uma medida do tamanho do efeito: a proporção da variação total dos dados explicada pela diferença entre os grupos. Valores em torno de 0,01 são pequenos, 0,06 são médios e 0,14 ou mais são grandes. Ele complementa o valor-p, que sozinho não revela a força do efeito.
Posso usar a ANOVA com apenas dois grupos?
Pode — e o resultado é matematicamente equivalente ao teste t de duas amostras (o F é igual ao quadrado do t). Mas, com só dois grupos, o teste t é mais direto e ainda fornece o intervalo de confiança da diferença. A ANOVA brilha mesmo a partir de três grupos.