Calculadora de Correlação de Pearson

Cole duas séries de números, obtenha r, , p-valor, intervalo de confiança e o gráfico de dispersão com a reta de regressão.

Dados pareados

Cada linha de X corresponde à mesma linha de Y. Pode colar direto do Excel ou do Google Sheets (uma coluna por vez). Vírgula ou ponto como separador decimal.

Variáveis

O que é a correlação de Pearson

A correlação de Pearson (r) é uma medida que sintetiza, em um único número entre −1 e +1, a força e a direção da relação linear entre duas variáveis numéricas. Quando r é próximo de +1, as duas variáveis sobem juntas; quando é próximo de −1, uma sobe e a outra cai; quando é próximo de 0, não há relação linear aparente.

Como interpretar o resultado

|r|Força da correlação
0,00 – 0,10Praticamente nula
0,10 – 0,30Fraca
0,30 – 0,50Moderada
0,50 – 0,70Forte
0,70 – 0,90Muito forte
0,90 – 1,00Quase perfeita

O R² (coeficiente de determinação) é r elevado ao quadrado e representa a fração da variação de Y que pode ser explicada por uma reta em função de X. Um R² de 0,81 significa que 81% da variação observada em Y é compatível com uma relação linear com X.

O valor-p testa a hipótese nula de que a correlação verdadeira na população é zero. Um valor-p baixo (geralmente abaixo de 0,05) sugere que a correlação observada dificilmente surgiu por puro acaso, dado o tamanho da amostra.

Como funciona o cálculo

r = Σ(xᵢ − x̄)(yᵢ − ȳ) ÷ √[Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)²]

A significância é avaliada pelo teste t com n − 2 graus de liberdade:

t = r · √(n − 2) ÷ √(1 − r²)

O intervalo de confiança para r usa a transformação z de Fisher (atanh), que aproxima a distribuição de r de uma normal e produz intervalos válidos para qualquer tamanho de amostra ≥ 4.

Correlação não é causa

Uma correlação forte só diz que as duas variáveis variam juntas — não diz por quê. Pode haver uma terceira variável causando as duas, a relação pode estar invertida, ou pode ser pura coincidência. Quanto mais séries temporais você compara, mais fácil é encontrar correlações fortes completamente espúrias.

Exemplos práticos

Use esta calculadora para investigar relações entre variáveis numéricas: nota da prova × horas estudadas, preço × área de imóveis, temperatura × consumo de sorvete, peso × altura, marketing × vendas. Antes de tirar conclusões causais, lembre da seção acima.

Correlações espúrias para rir

O caso clássico: o consumo de queijo per capita nos EUA e o número de pessoas que morreram enroladas em lençóis têm correlação de 0,95 entre 2000 e 2009. Para mais exemplos brasileiros (em construção): datafolia.com.br.

Limitações

  • Mede apenas relação linear. Uma relação em U ou exponencial pode aparecer com r ≈ 0 mesmo sendo forte.
  • É sensível a outliers: um único valor extremo pode inverter o sinal de r.
  • Assume que pelo menos uma das variáveis tem distribuição aproximadamente normal para que o valor-p seja exato; em amostras grandes (n ≥ 30) o desvio dessa hipótese é desprezível.

Referências

  1. Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2ª ed. Hillsdale: Lawrence Erlbaum; 1988.
  2. Fisher RA. On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1921;1:3–32.