O que é a correlação de Pearson
A correlação de Pearson (r) é uma medida que sintetiza, em um único número entre −1 e +1, a força e a direção da relação linear entre duas variáveis numéricas. Quando r é próximo de +1, as duas variáveis sobem juntas; quando é próximo de −1, uma sobe e a outra cai; quando é próximo de 0, não há relação linear aparente.
Como interpretar o resultado
| |r| | Força da correlação |
|---|---|
| 0,00 – 0,10 | Praticamente nula |
| 0,10 – 0,30 | Fraca |
| 0,30 – 0,50 | Moderada |
| 0,50 – 0,70 | Forte |
| 0,70 – 0,90 | Muito forte |
| 0,90 – 1,00 | Quase perfeita |
O R² (coeficiente de determinação) é r elevado ao quadrado e representa a fração da variação de Y que pode ser explicada por uma reta em função de X. Um R² de 0,81 significa que 81% da variação observada em Y é compatível com uma relação linear com X.
O valor-p testa a hipótese nula de que a correlação verdadeira na população é zero. Um valor-p baixo (geralmente abaixo de 0,05) sugere que a correlação observada dificilmente surgiu por puro acaso, dado o tamanho da amostra.
Como funciona o cálculo
A significância é avaliada pelo teste t com n − 2 graus de liberdade:
O intervalo de confiança para r usa a transformação z de Fisher (atanh), que aproxima a distribuição de r de uma normal e produz intervalos válidos para qualquer tamanho de amostra ≥ 4.
Uma correlação forte só diz que as duas variáveis variam juntas — não diz por quê. Pode haver uma terceira variável causando as duas, a relação pode estar invertida, ou pode ser pura coincidência. Quanto mais séries temporais você compara, mais fácil é encontrar correlações fortes completamente espúrias.
Exemplos práticos
Use esta calculadora para investigar relações entre variáveis numéricas: nota da prova × horas estudadas, preço × área de imóveis, temperatura × consumo de sorvete, peso × altura, marketing × vendas. Antes de tirar conclusões causais, lembre da seção acima.
O caso clássico: o consumo de queijo per capita nos EUA e o número de pessoas que morreram enroladas em lençóis têm correlação de 0,95 entre 2000 e 2009. Para mais exemplos brasileiros (em construção): datafolia.com.br.
Limitações
- Mede apenas relação linear. Uma relação em U ou exponencial pode aparecer com r ≈ 0 mesmo sendo forte.
- É sensível a outliers: um único valor extremo pode inverter o sinal de r.
- Assume que pelo menos uma das variáveis tem distribuição aproximadamente normal para que o valor-p seja exato; em amostras grandes (n ≥ 30) o desvio dessa hipótese é desprezível.
Referências
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2ª ed. Hillsdale: Lawrence Erlbaum; 1988.
- Fisher RA. On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1921;1:3–32.