Calculadora de Wilcoxon e Mann-Whitney

Compare dois grupos sem supor normalidade — os testes não-paramétricos para amostras independentes (Mann-Whitney) ou pareadas (Wilcoxon), com valor-p e interpretação.

Calcular o teste não-paramétrico

Escolha o tipo de teste e cole os dados dos dois grupos. O teste trabalha com a ordem dos valores, sem exigir distribuição normal.

Tipo de teste
Seus dados

Cole os valores separados por espaço, vírgula ou quebra de linha.

Configuração

O que são os testes de Wilcoxon e Mann-Whitney

Os testes de Mann-Whitney e de Wilcoxon são procedimentos não-paramétricos para comparar dois grupos. Eles respondem à mesma pergunta do teste t — os dois grupos diferem? —, mas sem exigir que os dados sigam uma distribuição normal.

A palavra "não-paramétrico" significa que o teste não depende de parâmetros como a média e o desvio padrão de uma curva normal. Em vez de trabalhar com os valores originais, esses testes trabalham com a ordem dos valores — os chamados postos (ou ranks). Essa é a ideia-chave: se você ordena todos os dados do menor para o maior e um grupo ocupa sistematicamente as posições mais altas, há evidência de que esse grupo tende a ter valores maiores.

Por trabalharem com posições, e não com as medidas em si, esses testes são robustos a valores extremos e funcionam bem mesmo com amostras pequenas ou com dados ordinais (notas de 1 a 5, graus de satisfação, escalas de dor). São, na prática, as alternativas mais usadas ao teste t quando os pressupostos deste não se sustentam.

Esta calculadora cobre os dois cenários: o teste de Mann-Whitney, para dois grupos independentes, e o teste de Wilcoxon dos postos sinalizados, para amostras pareadas (as mesmas unidades medidas duas vezes).

Os nomes explicados

A nomenclatura desses testes confunde muita gente, porque o nome "Wilcoxon" aparece em mais de um lugar. Vale separar com calma:

  • Teste de Mann-Whitney (ou U de Mann-Whitney): compara dois grupos independentes. Foi proposto por Henry Mann e Donald Whitney em 1947, generalizando uma ideia anterior de Frank Wilcoxon. Por isso também é chamado de teste da soma de postos de Wilcoxon — os dois nomes designam exatamente o mesmo teste, e levam ao mesmo valor-p.
  • Teste de Wilcoxon dos postos sinalizados: compara duas medidas pareadas dos mesmos indivíduos. É o equivalente não-paramétrico do teste t pareado. O "sinalizado" vem do fato de o teste considerar o sinal de cada diferença (se subiu ou desceu).

Em resumo: "soma de postos" é o teste para grupos independentes (Mann-Whitney); "postos sinalizados" é o teste para dados pareados (Wilcoxon pareado). Escolher entre eles é o mesmo que escolher entre o teste t de duas amostras e o teste t pareado — depende de os dados serem ou não medidos nas mesmas unidades.

Quando usar

Wilcoxon e Mann-Whitney são a alternativa não-paramétrica ao teste t. Considere usá-los quando:

  • Os dados não são normais. Distribuições assimétricas, com cauda longa ou com vários picos, violam o pressuposto de normalidade do teste t. Os testes de postos não fazem essa suposição.
  • Há valores extremos (outliers). Como o cálculo usa posições, e não os valores em si, um número muito grande ou muito pequeno não distorce o resultado tanto quanto distorceria uma média.
  • A amostra é pequena. Com poucos dados é difícil verificar a normalidade, e o teste t fica vulnerável. Os testes de postos são uma escolha mais segura.
  • Os dados são ordinais. Quando a variável é uma ordem ou uma escala (satisfação, nível de concordância, grau de dor), faz sentido comparar posições, não médias.
E se os dados forem normais?

Quando os pressupostos do teste t são razoáveis, prefira o teste t: ele tem um pouco mais de poder para detectar diferenças reais. Os testes de postos brilham justamente quando esses pressupostos falham — e, mesmo aí, costumam perder muito pouco poder.

Se você precisa comparar três ou mais grupos sem supor normalidade, o caminho é o teste de Kruskal-Wallis, disponível na calculadora de k amostras.

Como funciona

A mecânica dos dois testes parte da mesma ideia: substituir os valores pelos seus postos. Postos são as posições dos dados quando todos são ordenados do menor para o maior — o menor valor recebe posto 1, o seguinte posto 2, e assim por diante. Quando há valores empatados, todos recebem o posto médio das posições que ocupariam.

No teste de Mann-Whitney (grupos independentes), juntam-se os dois grupos, ordena-se tudo e somam-se os postos de cada grupo. A partir dessa soma, calcula-se a estatística U, que mede o grau de sobreposição entre os grupos:

U = R1 − n1(n1 + 1) ÷ 2 R1 é a soma dos postos do grupo 1 e n1 o seu tamanho. O teste usa o menor entre U₁ e U₂.

No teste de Wilcoxon pareado, calcula-se a diferença de cada par, ordenam-se essas diferenças pelo valor absoluto e somam-se separadamente os postos das diferenças positivas e das negativas. A estatística W é a menor dessas duas somas. Diferenças exatamente iguais a zero são descartadas.

Por fim, para obter o valor-p, esta calculadora converte U ou W em um escore z, usando a aproximação normal — válida porque, com tamanho de amostra razoável, a distribuição de U e de W se aproxima da normal:

z = (estatística − média esperada) ÷ erro padrão A média e o erro padrão dependem dos tamanhos das amostras e de uma correção para empates.

O escore z é então traduzido em valor-p pela curva normal. Um valor-p pequeno indica que a sobreposição observada entre os grupos seria improvável se os dois viessem da mesma distribuição.

Como interpretar o resultado

A calculadora devolve um cartão com a conclusão e alguns indicadores. Os principais:

  • Estatística U ou W — o resumo numérico da sobreposição entre os grupos (U para amostras independentes, W para pareadas). Sozinha, diz pouco; precisa ser comparada com a distribuição.
  • Estatística z — a estatística padronizada que alimenta a aproximação normal.
  • Valor-p — a probabilidade de observar uma diferença tão grande por acaso, se os dois grupos viessem da mesma distribuição. Se for menor que o nível de significância (em geral 0,05), o resultado é significativo.
  • Medianas (modo independente) — a mediana de cada grupo ajuda a ver a direção da diferença: qual grupo tende a apresentar valores maiores.
  • Tamanho das amostras — o número de observações usado no teste.

A conclusão é direta: se o valor-p ficar abaixo do nível de significância, há diferença estatisticamente significativa entre os grupos — eles provavelmente vêm de distribuições diferentes. Caso contrário, não há evidência suficiente para afirmar que diferem.

Compara distribuições, não exatamente médias

A rigor, esses testes comparam as distribuições dos dois grupos. Só quando as distribuições têm formato semelhante a conclusão pode ser lida como uma comparação de medianas. Por isso a calculadora mostra as medianas: elas dão a leitura prática mais comum. Lembre, ainda, que o valor-p aqui usa a aproximação normal — com amostras muito pequenas, trate o resultado como indicativo.

Exemplo resolvido

Uma pesquisadora compara a pontuação de satisfação de clientes em duas lojas. A Loja A teve as notas 12, 15, 14, 18, 11, 16; a Loja B teve 20, 22, 19, 25, 21, 23. Como são clientes diferentes, o teste indicado é o de Mann-Whitney. As notas diferem entre as lojas?

  1. Ordenar e atribuir postos: juntando os 12 valores e ordenando, as notas da Loja A (11 a 18) ocupam as posições mais baixas e as da Loja B (19 a 25), as mais altas. A soma dos postos da Loja A é 1+2+3+4+5+6 = 21; a da Loja B é 7+8+9+10+11+12 = 57.
  2. Estatística U: U₁ = 21 − 6·7÷2 = 0 e U₂ = 6·6 − 0 = 36. O teste usa U = 0 — não há nenhuma sobreposição entre os grupos.
  3. Aproximação normal: com n₁ = n₂ = 6, a média esperada de U é 18 e o erro padrão ≈ 6,24, o que leva a um escore z ≈ −2,88.
  4. Valor-p: para z ≈ −2,88, o valor-p bicaudal ≈ 0,004.

Como 0,004 < 0,05, a diferença é estatisticamente significativa: a satisfação difere entre as lojas, com a Loja B apresentando notas sistematicamente maiores (mediana 21,5 contra 14,5 da Loja A). Use o botão "Preencher com exemplo" para ver esse cálculo na calculadora.

Perguntas frequentes

Qual a diferença entre o teste de Wilcoxon e o de Mann-Whitney?

O teste de Mann-Whitney compara dois grupos independentes — pessoas diferentes em cada grupo. O teste de Wilcoxon dos postos sinalizados compara duas medidas dos mesmos indivíduos, como antes e depois de uma intervenção. É a mesma escolha que existe entre o teste t de duas amostras e o teste t pareado.

Quando devo usar um teste não-paramétrico?

Quando os dados não seguem uma distribuição normal, quando há valores extremos, quando a amostra é pequena ou quando a variável é ordinal. Nesses casos, Wilcoxon e Mann-Whitney são mais confiáveis que o teste t.

O que é a estatística U de Mann-Whitney?

É um número que mede o quanto os postos de um grupo se sobrepõem aos do outro. Quando os dois grupos se misturam bastante, U fica perto do valor esperado; quando um grupo domina as posições altas, U fica nos extremos — sinal de diferença entre os grupos.

Esses testes comparam médias ou medianas?

Tecnicamente, eles comparam as distribuições inteiras por meio dos postos. Quando as duas distribuições têm formato parecido, o resultado pode ser interpretado como uma comparação de medianas — a leitura prática mais comum.

Preciso supor normalidade?

Não. Essa é a principal vantagem dos testes não-paramétricos: eles trabalham com a ordem (postos) dos valores, e não com as medidas em si, então não exigem que os dados sigam uma curva normal.

Quantos dados são necessários?

Esta calculadora pede pelo menos 2 valores por grupo. Como o valor-p usa a aproximação normal, amostras com cerca de 8 a 10 observações ou mais tornam o resultado mais confiável. Com amostras minúsculas, interprete o valor-p como indicativo.

Na dúvida sobre qual teste usar?

Veja o guia que ajuda a escolher o teste estatístico certo para o seu tipo de dado.

Abrir o guia de escolha