O que são os testes de Wilcoxon e Mann-Whitney
Os testes de Mann-Whitney e de Wilcoxon são procedimentos não-paramétricos para comparar dois grupos. Eles respondem à mesma pergunta do teste t — os dois grupos diferem? —, mas sem exigir que os dados sigam uma distribuição normal.
A palavra "não-paramétrico" significa que o teste não depende de parâmetros como a média e o desvio padrão de uma curva normal. Em vez de trabalhar com os valores originais, esses testes trabalham com a ordem dos valores — os chamados postos (ou ranks). Essa é a ideia-chave: se você ordena todos os dados do menor para o maior e um grupo ocupa sistematicamente as posições mais altas, há evidência de que esse grupo tende a ter valores maiores.
Por trabalharem com posições, e não com as medidas em si, esses testes são robustos a valores extremos e funcionam bem mesmo com amostras pequenas ou com dados ordinais (notas de 1 a 5, graus de satisfação, escalas de dor). São, na prática, as alternativas mais usadas ao teste t quando os pressupostos deste não se sustentam.
Esta calculadora cobre os dois cenários: o teste de Mann-Whitney, para dois grupos independentes, e o teste de Wilcoxon dos postos sinalizados, para amostras pareadas (as mesmas unidades medidas duas vezes).
Os nomes explicados
A nomenclatura desses testes confunde muita gente, porque o nome "Wilcoxon" aparece em mais de um lugar. Vale separar com calma:
- Teste de Mann-Whitney (ou U de Mann-Whitney): compara dois grupos independentes. Foi proposto por Henry Mann e Donald Whitney em 1947, generalizando uma ideia anterior de Frank Wilcoxon. Por isso também é chamado de teste da soma de postos de Wilcoxon — os dois nomes designam exatamente o mesmo teste, e levam ao mesmo valor-p.
- Teste de Wilcoxon dos postos sinalizados: compara duas medidas pareadas dos mesmos indivíduos. É o equivalente não-paramétrico do teste t pareado. O "sinalizado" vem do fato de o teste considerar o sinal de cada diferença (se subiu ou desceu).
Em resumo: "soma de postos" é o teste para grupos independentes (Mann-Whitney); "postos sinalizados" é o teste para dados pareados (Wilcoxon pareado). Escolher entre eles é o mesmo que escolher entre o teste t de duas amostras e o teste t pareado — depende de os dados serem ou não medidos nas mesmas unidades.
Quando usar
Wilcoxon e Mann-Whitney são a alternativa não-paramétrica ao teste t. Considere usá-los quando:
- Os dados não são normais. Distribuições assimétricas, com cauda longa ou com vários picos, violam o pressuposto de normalidade do teste t. Os testes de postos não fazem essa suposição.
- Há valores extremos (outliers). Como o cálculo usa posições, e não os valores em si, um número muito grande ou muito pequeno não distorce o resultado tanto quanto distorceria uma média.
- A amostra é pequena. Com poucos dados é difícil verificar a normalidade, e o teste t fica vulnerável. Os testes de postos são uma escolha mais segura.
- Os dados são ordinais. Quando a variável é uma ordem ou uma escala (satisfação, nível de concordância, grau de dor), faz sentido comparar posições, não médias.
Quando os pressupostos do teste t são razoáveis, prefira o teste t: ele tem um pouco mais de poder para detectar diferenças reais. Os testes de postos brilham justamente quando esses pressupostos falham — e, mesmo aí, costumam perder muito pouco poder.
Se você precisa comparar três ou mais grupos sem supor normalidade, o caminho é o teste de Kruskal-Wallis, disponível na calculadora de k amostras.
Como funciona
A mecânica dos dois testes parte da mesma ideia: substituir os valores pelos seus postos. Postos são as posições dos dados quando todos são ordenados do menor para o maior — o menor valor recebe posto 1, o seguinte posto 2, e assim por diante. Quando há valores empatados, todos recebem o posto médio das posições que ocupariam.
No teste de Mann-Whitney (grupos independentes), juntam-se os dois grupos, ordena-se tudo e somam-se os postos de cada grupo. A partir dessa soma, calcula-se a estatística U, que mede o grau de sobreposição entre os grupos:
No teste de Wilcoxon pareado, calcula-se a diferença de cada par, ordenam-se essas diferenças pelo valor absoluto e somam-se separadamente os postos das diferenças positivas e das negativas. A estatística W é a menor dessas duas somas. Diferenças exatamente iguais a zero são descartadas.
Por fim, para obter o valor-p, esta calculadora converte U ou W em um escore z, usando a aproximação normal — válida porque, com tamanho de amostra razoável, a distribuição de U e de W se aproxima da normal:
O escore z é então traduzido em valor-p pela curva normal. Um valor-p pequeno indica que a sobreposição observada entre os grupos seria improvável se os dois viessem da mesma distribuição.
Como interpretar o resultado
A calculadora devolve um cartão com a conclusão e alguns indicadores. Os principais:
- Estatística U ou W — o resumo numérico da sobreposição entre os grupos (U para amostras independentes, W para pareadas). Sozinha, diz pouco; precisa ser comparada com a distribuição.
- Estatística z — a estatística padronizada que alimenta a aproximação normal.
- Valor-p — a probabilidade de observar uma diferença tão grande por acaso, se os dois grupos viessem da mesma distribuição. Se for menor que o nível de significância (em geral 0,05), o resultado é significativo.
- Medianas (modo independente) — a mediana de cada grupo ajuda a ver a direção da diferença: qual grupo tende a apresentar valores maiores.
- Tamanho das amostras — o número de observações usado no teste.
A conclusão é direta: se o valor-p ficar abaixo do nível de significância, há diferença estatisticamente significativa entre os grupos — eles provavelmente vêm de distribuições diferentes. Caso contrário, não há evidência suficiente para afirmar que diferem.
A rigor, esses testes comparam as distribuições dos dois grupos. Só quando as distribuições têm formato semelhante a conclusão pode ser lida como uma comparação de medianas. Por isso a calculadora mostra as medianas: elas dão a leitura prática mais comum. Lembre, ainda, que o valor-p aqui usa a aproximação normal — com amostras muito pequenas, trate o resultado como indicativo.
Exemplo resolvido
Uma pesquisadora compara a pontuação de satisfação de clientes em duas lojas. A Loja A teve as notas 12, 15, 14, 18, 11, 16; a Loja B teve 20, 22, 19, 25, 21, 23. Como são clientes diferentes, o teste indicado é o de Mann-Whitney. As notas diferem entre as lojas?
- Ordenar e atribuir postos: juntando os 12 valores e ordenando, as notas da Loja A (11 a 18) ocupam as posições mais baixas e as da Loja B (19 a 25), as mais altas. A soma dos postos da Loja A é 1+2+3+4+5+6 = 21; a da Loja B é 7+8+9+10+11+12 = 57.
- Estatística U: U₁ = 21 − 6·7÷2 = 0 e U₂ = 6·6 − 0 = 36. O teste usa U = 0 — não há nenhuma sobreposição entre os grupos.
- Aproximação normal: com n₁ = n₂ = 6, a média esperada de U é 18 e o erro padrão ≈ 6,24, o que leva a um escore z ≈ −2,88.
- Valor-p: para z ≈ −2,88, o valor-p bicaudal ≈ 0,004.
Como 0,004 < 0,05, a diferença é estatisticamente significativa: a satisfação difere entre as lojas, com a Loja B apresentando notas sistematicamente maiores (mediana 21,5 contra 14,5 da Loja A). Use o botão "Preencher com exemplo" para ver esse cálculo na calculadora.
Perguntas frequentes
Qual a diferença entre o teste de Wilcoxon e o de Mann-Whitney?
O teste de Mann-Whitney compara dois grupos independentes — pessoas diferentes em cada grupo. O teste de Wilcoxon dos postos sinalizados compara duas medidas dos mesmos indivíduos, como antes e depois de uma intervenção. É a mesma escolha que existe entre o teste t de duas amostras e o teste t pareado.
Quando devo usar um teste não-paramétrico?
Quando os dados não seguem uma distribuição normal, quando há valores extremos, quando a amostra é pequena ou quando a variável é ordinal. Nesses casos, Wilcoxon e Mann-Whitney são mais confiáveis que o teste t.
O que é a estatística U de Mann-Whitney?
É um número que mede o quanto os postos de um grupo se sobrepõem aos do outro. Quando os dois grupos se misturam bastante, U fica perto do valor esperado; quando um grupo domina as posições altas, U fica nos extremos — sinal de diferença entre os grupos.
Esses testes comparam médias ou medianas?
Tecnicamente, eles comparam as distribuições inteiras por meio dos postos. Quando as duas distribuições têm formato parecido, o resultado pode ser interpretado como uma comparação de medianas — a leitura prática mais comum.
Preciso supor normalidade?
Não. Essa é a principal vantagem dos testes não-paramétricos: eles trabalham com a ordem (postos) dos valores, e não com as medidas em si, então não exigem que os dados sigam uma curva normal.
Quantos dados são necessários?
Esta calculadora pede pelo menos 2 valores por grupo. Como o valor-p usa a aproximação normal, amostras com cerca de 8 a 10 observações ou mais tornam o resultado mais confiável. Com amostras minúsculas, interprete o valor-p como indicativo.