O teste de Mann-Whitney compara médias ou medianas?

O teste compara as distribuições dos dois grupos por meio dos postos. Quando as distribuições têm formato parecido, ele pode ser interpretado como uma comparação de medianas.

Preciso supor normalidade para usar esses testes?

Não. É justamente a vantagem dos testes não-paramétricos: eles não exigem que os dados sigam uma distribuição normal, pois trabalham com a ordem (postos) dos valores e não com as próprias medidas.

Calculadora de Wilcoxon e Mann-Whitney

O que são os testes de Wilcoxon e Mann-Whitney

Os testes de Mann-Whitney e de Wilcoxon são procedimentos não-paramétricos para comparar dois grupos. Eles respondem à mesma pergunta do teste t — os dois grupos diferem? —, mas sem exigir que os dados sigam uma distribuição normal.

A palavra "não-paramétrico" significa que o teste não depende de parâmetros como a média e o desvio padrão de uma curva normal. Em vez de trabalhar com os valores originais, esses testes trabalham com a ordem dos valores — os chamados postos (ou ranks). Essa é a ideia-chave: se você ordena todos os dados do menor para o maior e um grupo ocupa sistematicamente as posições mais altas, há evidência de que esse grupo tende a ter valores maiores.

Por trabalharem com posições, e não com as medidas em si, esses testes são robustos a valores extremos e funcionam bem mesmo com amostras pequenas ou com dados ordinais (notas de 1 a 5, graus de satisfação, escalas de dor). São, na prática, as alternativas mais usadas ao teste t quando os pressupostos deste não se sustentam.

Esta calculadora cobre os dois cenários: o teste de Mann-Whitney, para dois grupos independentes, e o teste de Wilcoxon dos postos sinalizados, para amostras pareadas (as mesmas unidades medidas duas vezes).

Os nomes explicados

A nomenclatura desses testes confunde muita gente, porque o nome "Wilcoxon" aparece em mais de um lugar. Vale separar com calma:

Teste de Mann-Whitney (ou U de Mann-Whitney): compara dois grupos independentes. Foi proposto por Henry Mann e Donald Whitney em 1947, generalizando uma ideia anterior de Frank Wilcoxon. Por isso também é chamado de teste da soma de postos de Wilcoxon — os dois nomes designam exatamente o mesmo teste, e levam ao mesmo valor-p.
Teste de Wilcoxon dos postos sinalizados: compara duas medidas pareadas dos mesmos indivíduos. É o equivalente não-paramétrico do teste t pareado. O "sinalizado" vem do fato de o teste considerar o sinal de cada diferença (se subiu ou desceu).

Em resumo: "soma de postos" é o teste para grupos independentes (Mann-Whitney); "postos sinalizados" é o teste para dados pareados (Wilcoxon pareado). Escolher entre eles é o mesmo que escolher entre o teste t de duas amostras e o teste t pareado — depende de os dados serem ou não medidos nas mesmas unidades.

Quando usar

Wilcoxon e Mann-Whitney são a alternativa não-paramétrica ao teste t. Considere usá-los quando:

Os dados não são normais. Distribuições assimétricas, com cauda longa ou com vários picos, violam o pressuposto de normalidade do teste t. Os testes de postos não fazem essa suposição.
Há valores extremos (outliers). Como o cálculo usa posições, e não os valores em si, um número muito grande ou muito pequeno não distorce o resultado tanto quanto distorceria uma média.
A amostra é pequena. Com poucos dados é difícil verificar a normalidade, e o teste t fica vulnerável. Os testes de postos são uma escolha mais segura.
Os dados são ordinais. Quando a variável é uma ordem ou uma escala (satisfação, nível de concordância, grau de dor), faz sentido comparar posições, não médias.

E se os dados forem normais?

Quando os pressupostos do teste t são razoáveis, prefira o teste t: ele tem um pouco mais de poder para detectar diferenças reais. Os testes de postos brilham justamente quando esses pressupostos falham — e, mesmo aí, costumam perder muito pouco poder.

Se você precisa comparar três ou mais grupos sem supor normalidade, o caminho é o teste de Kruskal-Wallis, disponível na calculadora de k amostras.

Como funciona

A mecânica dos dois testes parte da mesma ideia: substituir os valores pelos seus postos. Postos são as posições dos dados quando todos são ordenados do menor para o maior — o menor valor recebe posto 1, o seguinte posto 2, e assim por diante. Quando há valores empatados, todos recebem o posto médio das posições que ocupariam.

No teste de Mann-Whitney (grupos independentes), juntam-se os dois grupos, ordena-se tudo e somam-se os postos de cada grupo. A partir dessa soma, calcula-se a estatística U, que mede o grau de sobreposição entre os grupos:

U = R₁ − n₁(n₁ + 1) ÷ 2 R₁ é a soma dos postos do grupo 1 e n₁ o seu tamanho. O teste usa o menor entre U₁ e U₂.

No teste de Wilcoxon pareado, calcula-se a diferença de cada par, ordenam-se essas diferenças pelo valor absoluto e somam-se separadamente os postos das diferenças positivas e das negativas. A estatística W é a menor dessas duas somas. Diferenças exatamente iguais a zero são descartadas.

Por fim, para obter o valor-p, esta calculadora converte U ou W em um escore z, usando a aproximação normal — válida porque, com tamanho de amostra razoável, a distribuição de U e de W se aproxima da normal:

z = (estatística − média esperada) ÷ erro padrão A média e o erro padrão dependem dos tamanhos das amostras e de uma correção para empates.

O escore z é então traduzido em valor-p pela curva normal. Um valor-p pequeno indica que a sobreposição observada entre os grupos seria improvável se os dois viessem da mesma distribuição.

Como interpretar o resultado

A calculadora devolve um cartão com a conclusão e alguns indicadores. Os principais:

Estatística U ou W — o resumo numérico da sobreposição entre os grupos (U para amostras independentes, W para pareadas). Sozinha, diz pouco; precisa ser comparada com a distribuição.
Estatística z — a estatística padronizada que alimenta a aproximação normal.
Valor-p — a probabilidade de observar uma diferença tão grande por acaso, se os dois grupos viessem da mesma distribuição. Se for menor que o nível de significância (em geral 0,05), o resultado é significativo.
Medianas (modo independente) — a mediana de cada grupo ajuda a ver a direção da diferença: qual grupo tende a apresentar valores maiores.
Tamanho das amostras — o número de observações usado no teste.

A conclusão é direta: se o valor-p ficar abaixo do nível de significância, há diferença estatisticamente significativa entre os grupos — eles provavelmente vêm de distribuições diferentes. Caso contrário, não há evidência suficiente para afirmar que diferem.

Compara distribuições, não exatamente médias

A rigor, esses testes comparam as distribuições dos dois grupos. Só quando as distribuições têm formato semelhante a conclusão pode ser lida como uma comparação de medianas. Por isso a calculadora mostra as medianas: elas dão a leitura prática mais comum. Lembre, ainda, que o valor-p aqui usa a aproximação normal — com amostras muito pequenas, trate o resultado como indicativo.

Exemplo resolvido

Uma pesquisadora compara a pontuação de satisfação de clientes em duas lojas. A Loja A teve as notas 12, 15, 14, 18, 11, 16; a Loja B teve 20, 22, 19, 25, 21, 23. Como são clientes diferentes, o teste indicado é o de Mann-Whitney. As notas diferem entre as lojas?

Ordenar e atribuir postos: juntando os 12 valores e ordenando, as notas da Loja A (11 a 18) ocupam as posições mais baixas e as da Loja B (19 a 25), as mais altas. A soma dos postos da Loja A é 1+2+3+4+5+6 = 21; a da Loja B é 7+8+9+10+11+12 = 57.
Estatística U: U₁ = 21 − 6·7÷2 = 0 e U₂ = 6·6 − 0 = 36. O teste usa U = 0 — não há nenhuma sobreposição entre os grupos.
Aproximação normal: com n₁ = n₂ = 6, a média esperada de U é 18 e o erro padrão ≈ 6,24, o que leva a um escore z ≈ −2,88.
Valor-p: para z ≈ −2,88, o valor-p bicaudal ≈ 0,004.

Como 0,004 < 0,05, a diferença é estatisticamente significativa: a satisfação difere entre as lojas, com a Loja B apresentando notas sistematicamente maiores (mediana 21,5 contra 14,5 da Loja A). Use o botão "Preencher com exemplo" para ver esse cálculo na calculadora.

Perguntas frequentes

Qual a diferença entre o teste de Wilcoxon e o de Mann-Whitney?

O teste de Mann-Whitney compara dois grupos independentes — pessoas diferentes em cada grupo. O teste de Wilcoxon dos postos sinalizados compara duas medidas dos mesmos indivíduos, como antes e depois de uma intervenção. É a mesma escolha que existe entre o teste t de duas amostras e o teste t pareado.

Quando devo usar um teste não-paramétrico?

Quando os dados não seguem uma distribuição normal, quando há valores extremos, quando a amostra é pequena ou quando a variável é ordinal. Nesses casos, Wilcoxon e Mann-Whitney são mais confiáveis que o teste t.

O que é a estatística U de Mann-Whitney?

É um número que mede o quanto os postos de um grupo se sobrepõem aos do outro. Quando os dois grupos se misturam bastante, U fica perto do valor esperado; quando um grupo domina as posições altas, U fica nos extremos — sinal de diferença entre os grupos.

Esses testes comparam médias ou medianas?

Tecnicamente, eles comparam as distribuições inteiras por meio dos postos. Quando as duas distribuições têm formato parecido, o resultado pode ser interpretado como uma comparação de medianas — a leitura prática mais comum.

Preciso supor normalidade?

Não. Essa é a principal vantagem dos testes não-paramétricos: eles trabalham com a ordem (postos) dos valores, e não com as medidas em si, então não exigem que os dados sigam uma curva normal.

Quantos dados são necessários?

Esta calculadora pede pelo menos 2 valores por grupo. Como o valor-p usa a aproximação normal, amostras com cerca de 8 a 10 observações ou mais tornam o resultado mais confiável. Com amostras minúsculas, interprete o valor-p como indicativo.

Calculadora de Wilcoxon e Mann-Whitney

Calcular o teste não-paramétrico

O que são os testes de Wilcoxon e Mann-Whitney

Os nomes explicados

Quando usar

Como funciona

Como interpretar o resultado

Exemplo resolvido

Perguntas frequentes

Na dúvida sobre qual teste usar?

Calculadora de Wilcoxon e Mann-Whitney

Calcular o teste não-paramétrico

O que são os testes de Wilcoxon e Mann-Whitney

Os nomes explicados

Quando usar

Como funciona

Como interpretar o resultado

Exemplo resolvido

Perguntas frequentes

Calculadoras relacionadas

Teste t de Student

ANOVA e k amostras

Qual teste usar?

Na dúvida sobre qual teste usar?