A frase "correlação não implica causalidade" virou meme, e mesmo assim continua aparecendo em manchete, em projeto de pesquisa e em decisão de política pública. Este artigo mostra sete armadilhas concretas, com exemplos em dados brasileiros, e um checklist para você usar antes de afirmar que um r alto "explica" alguma coisa.
Por que esta frase é repetida tanto (e por que continua importante)
Imagine a seguinte manchete, que poderia tranquilamente sair em um portal brasileiro: "Cidades com mais sorveterias têm mais afogamentos na praia, aponta estudo". O número é verdadeiro — basta cruzar dados municipais do litoral catarinense ou do Rio Grande do Norte para encontrar uma correlação positiva considerável entre o número de sorveterias por habitante e o número de resgates em praia no verão. A correlação é real. A conclusão de que "sorveteria causa afogamento" é absurda. Há uma terceira variável tão óbvia que mal precisa ser explicada: a temperatura. Quando faz calor, mais gente come sorvete e mais gente entra no mar. As duas séries sobem juntas porque dependem de uma causa comum.
O exemplo do sorvete é o pão e manteiga das aulas de estatística porque ele expõe, com clareza didática, algo que aparece o tempo inteiro em estudos econômicos, epidemiológicos, educacionais e de marketing no Brasil — só que ali a terceira variável não está tão visível. O detalhe que dá vida a este artigo é que os mesmos erros se repetem em pesquisas sérias, com dados do IBGE, do Datasus, do Inep e de surveys de empresas, porque a tentação de transformar uma associação em explicação é grande, sobretudo quando o resultado "bate" com nossa intuição.
O que correlação realmente é (e o que não é)
A correlação de Pearson mede a força e a direção da associação linear entre duas variáveis numéricas. O coeficiente r varia entre −1 e +1: zero indica ausência de relação linear, valores positivos indicam que as duas variáveis tendem a crescer juntas, e valores negativos indicam que uma sobe quando a outra desce. Em ciências sociais brasileiras é comum encontrar r entre 0,15 e 0,40 para associações "interessantes"; em estudos físicos, biológicos ou de engenharia, valores acima de 0,80 são esperados. Se você precisa calcular r com seus próprios dados, a Calculadora de Correlação de Pearson do site faz a conta no navegador, sem enviar nada para servidor algum.
O que r não faz: ele não indica causalidade, não captura relações não lineares (uma parábola perfeita pode ter r próximo de zero), não distingue entre uma associação causada por uma terceira variável e uma associação direta, e não diz qual variável vem antes na cadeia causal. É uma estatística descritiva poderosa, mas só descritiva. Tirar conclusões causais a partir dela exige outras informações — teoria, desenho do estudo, técnicas de identificação — que não estão dentro do número.
As 7 armadilhas que aparecem em pesquisa brasileira
Apresento a seguir sete erros frequentes na interpretação de correlações, todos exemplificados com situações que aparecem ou poderiam facilmente aparecer em estudos brasileiros. Em cada armadilha, indico o tipo de teste ou ferramenta apropriado e onde encontrá-lo no site.
1. Confundidor: a terceira variável escondida
É o caso clássico do sorvete e do afogamento, mas vai muito além. A correlação positiva entre número de hospitais por município e taxa de mortalidade hospitalar não significa que hospital mate gente — significa que cidades com hospitais grandes recebem casos mais graves, transferidos de cidades vizinhas. A correlação entre consumo de café e infarto desaparece quando você controla por tabagismo, porque quem fuma também bebe mais café. Em quase toda pesquisa observacional há pelo menos um confundidor plausível, e o exercício mental obrigatório é listar todos os candidatos antes de olhar os dados. Se a correlação observada é compatível com a influência de uma terceira variável que afeta as duas, você não tem causalidade.
2. Causalidade reversa: quem causa quem?
Renda e escolaridade são positivamente correlacionadas em quase todo conjunto de microdados do Brasil — PNAD Contínua, Censo, Caged. A interpretação típica é que estudar mais leva a ganhar mais. Mas a relação também vai no sentido inverso: famílias mais ricas conseguem manter os filhos estudando por mais tempo, pagar curso preparatório, financiar mestrado. Pior, a relação verdadeira é provavelmente bidirecional: cada variável alimenta a outra ao longo da vida.
Outro exemplo: a correlação entre participação política e trabalho formal. Pessoas com emprego formal podem ter mais tempo, recursos e segurança para participar; mas, simetricamente, quem participa pode ter mais acesso a redes que abrem vagas formais. Sem dados longitudinais — medidas repetidas no tempo, como em estudos de painel — é virtualmente impossível separar as duas direções.
3. Restrição de range: o "telescópio invertido"
Suponha que você queira estudar a correlação entre nota do Enem e renda familiar usando apenas estudantes que entraram na USP em determinado ano. Você vai encontrar uma correlação muito mais fraca do que a que existe na população geral de candidatos. Não porque a relação real é fraca, e sim porque você está olhando para uma fatia muito estreita do espectro: quem entra na USP tem nota relativamente alta e, em média, renda também acima da média nacional. Você cortou a variabilidade da renda e da nota, e o coeficiente de correlação naturalmente despenca.
Esse fenômeno, chamado restrição de range, é a razão pela qual estudos com amostras muito homogêneas costumam encontrar r baixo e concluir, erradamente, que "não há relação". Antes de interpretar um r, pergunte: a amostra cobre toda a faixa de interesse das duas variáveis? Se não, o r que você está vendo é uma estimativa enviesada. Para calcular o intervalo de confiança do r e ter uma ideia da incerteza, a Calculadora de Intervalo de Confiança via transformação de Fisher z é o caminho.
4. Outliers que inflam (ou desinflam) o r
Um único ponto fora da nuvem pode mudar dramaticamente o coeficiente. Veja o gráfico abaixo: à esquerda, uma nuvem aproximadamente sem padrão, com r ≈ 0,15; à direita, exatamente os mesmos dados acrescidos de um único outlier no canto superior direito, e o r salta para 0,72. A reta de regressão muda completamente de inclinação. Sem investigar esse ponto — verificar se é erro de digitação, observação legítima rara ou caso especial — qualquer interpretação é frágil.
A recomendação prática: sempre olhe o diagrama de dispersão antes de divulgar um coeficiente. Reportar o r sem mostrar a nuvem é estatística cega.
5. Paradoxo de Simpson: o sinal que muda quando você agrega
O caso clássico veio da Universidade de Berkeley em 1973: agregada, a taxa de admissão de homens parecia maior que a de mulheres, sugerindo discriminação. Quando os dados foram quebrados por departamento, na maioria deles a taxa de admissão de mulheres era igual ou maior. A explicação: mulheres se candidatavam, em maior proporção, a departamentos mais competitivos.
O mesmo padrão aparece em vestibulares brasileiros. Olhando uma universidade como UFRGS ou UFRJ no agregado, pode surgir uma diferença de aprovação por gênero que parece refletir desigualdade. Mas se você estratifica por curso, a diferença muitas vezes some ou inverte, porque a distribuição de candidatos por curso é diferente entre homens e mulheres. Mesmo fenômeno em saúde pública: a taxa de mortalidade por COVID-19 em estados do Nordeste, agregada, é menor que a de estados do Sul; estratificada por faixa etária, a comparação muda, porque a estrutura demográfica é diferente.
Para variáveis categóricas em tabelas de contingência, o teste apropriado é o qui-quadrado, sempre acompanhado de uma análise estratificada por variáveis relevantes. Nunca confie em um teste global sem antes verificar se o sinal se mantém em subgrupos.
6. Cherry-picking de variáveis: a "pesca" de correlações
Se você calcular o coeficiente de correlação entre uma variável de interesse e cem outras variáveis, em média cinco delas vão ter p < 0,05 só por acaso. Esse é o problema das comparações múltiplas, e ele é central em pesquisas que partem de bases grandes — como dados administrativos do Datasus ou microdados da PNAD — sem hipótese prévia clara. O pesquisador olha vinte associações, encontra três "significativas", e relata só essas. As outras dezessete viram nota de rodapé.
Existem ajustes formais para isso: a correção de Bonferroni divide o nível de significância pelo número de testes (rigorosa, mas conservadora), e o controle do FDR (False Discovery Rate, Benjamini–Hochberg) é menos rígido e mais usado em estudos exploratórios. Para evitar a armadilha de partida, registre a hipótese antes de olhar os dados — em estudos clínicos isso virou padrão; em ciências sociais ainda é raro, mas o caminho aponta para lá. Se a sua intenção é comparar médias entre dois grupos previamente definidos, o teste t de Student é mais transparente do que pescar correlações até alguma "ficar significativa".
7. Correlação espúria: variáveis sem nenhuma relação real
Duas séries temporais que crescem juntas — ainda que por motivos completamente diferentes — vão exibir correlação altíssima. Importação de queijo francês, número de prêmios literários brasileiros, consumo de internet móvel, expectativa de vida, número de doutores titulados no Brasil: praticamente qualquer coisa que sobe ao longo dos anos correlaciona com qualquer outra coisa que sobe ao longo dos anos. O r não está mentindo — ele está apenas captando uma tendência comum no tempo, sem nenhuma relação substantiva entre as variáveis.
O remédio técnico é trabalhar com séries diferenciadas (variações ano a ano) ou testar cointegração — não com os níveis brutos. O remédio conceitual é mais simples: pergunte se faz sentido teórico que uma variável afete a outra. Se a resposta é "absolutamente nenhum", desconfie do r, por mais bonito que ele seja.
Como evitar: do que perguntar antes de acreditar em um r
Antes de aceitar uma correlação como evidência de causa, passe pela lista abaixo. Ela não substitui um curso de inferência causal, mas filtra a maior parte dos erros corriqueiros:
- Há uma terceira variável plausível? Liste pelo menos três candidatas a confundidor com base no que se conhece da área. Se alguma é difícil de descartar, suspenda o juízo causal.
- A direção causal faz sentido? Pergunte qual variável vem antes no tempo e quais argumentos teóricos sustentam essa ordem. Se as duas se influenciam mutuamente, declare isso abertamente.
- O range é representativo? A amostra cobre uma faixa relevante de cada variável? Se ela foi pré-selecionada — por aprovação em exame, por adesão a um programa, por critério clínico — o r pode estar artificialmente baixo.
- O sinal se mantém em subgrupos? Quebre os dados por sexo, idade, região, classe social, faixa de renda. Se a direção muda em algum subgrupo grande, você está vendo agregação.
- Tem teoria por trás (DAG)? Diagramas causais ajudam a explicitar quais variáveis precisam ser controladas e quais não devem. Ajustar pela variável errada — um colisor ou um mediador — introduz viés em vez de removê-lo.
- O tamanho de amostra suporta a conclusão? Em estudos observacionais, planeje desde o início quantas observações precisa para detectar o efeito esperado. A Calculadora de Tamanho de Amostra ajuda nesse passo.
Um r estatisticamente significativo apenas indica que a associação observada provavelmente não é fruto do acaso amostral. Ele não responde nenhuma das perguntas acima sobre desenho, direção e confundimento. Significância é condição necessária — não suficiente — para conclusão causal.
Quando podemos inferir causalidade?
O padrão-ouro continua sendo o experimento controlado randomizado. Quando o pesquisador atribui o tratamento por sorteio, todos os confundidores observados e não observados se equilibram, em expectativa, entre os grupos. É por isso que ensaios clínicos randomizados dominam a medicina baseada em evidência, e por que testes A/B dominam o desenvolvimento de produto. Se você está nesse cenário, a Calculadora de teste t e a Calculadora de Correlação ajudam na análise da diferença entre grupos.
Quando experimento não é possível — em economia, epidemiologia, educação, sociologia — há técnicas de identificação que se aproximam dele em condições específicas:
- Quasi-experimentos aproveitam variação "natural" do tratamento, como uma reforma educacional que afetou um estado mas não outro. Diferenças-em-diferenças e regressão descontínua são ferramentas centrais aqui.
- Variáveis instrumentais usam uma terceira variável correlacionada com o tratamento, mas que afeta o desfecho só por meio dele. Encontrar um instrumento válido é difícil e exige defesa cuidadosa.
- Modelos estruturais com DAGs explícitos formalizam quais ajustes são apropriados a partir da teoria causal assumida — o programa que Judea Pearl chama de "a revolução causal".
Em pesquisa observacional clássica, os 9 critérios de Bradford Hill (1965) seguem sendo uma referência prática para argumentar causalidade na ausência de experimento: força da associação, consistência entre estudos, especificidade, temporalidade, gradiente biológico (dose–resposta), plausibilidade, coerência com o que se sabe, evidência experimental quando existe, e analogia com casos parecidos. Nenhum dos critérios isolado prova causa; em conjunto, eles formam uma argumentação razoável.
Estudo de caso: a "correlação" entre PIB e bolsas escolares
Vamos para um exemplo fictício, mas com a cara dos estudos brasileiros reais. Suponha que um pesquisador junte dados de painel das 27 unidades federativas (UFs) entre 2005 e 2023, e calcule a correlação entre o crescimento real do PIB estadual e a cobertura de programas de bolsa escolar (Bolsa Família, depois Auxílio Brasil) na população de idade escolar. Ele encontra r = 0,42 — positivo, considerável, estatisticamente significativo. Conclusão tentadora: "bolsas escolares estimulam o crescimento econômico das UFs".
Mas a lista de problemas é longa. Primeiro, há causalidade reversa: UFs em crescimento têm mais arrecadação e maior capacidade administrativa de operar programas sociais, então o crescimento pode causar a cobertura, não o contrário. Segundo, há confundidores regionais — UFs do Sul cresceram mais e também aderiram mais cedo aos programas, mas por motivos institucionais que pouco têm a ver com o programa em si. Terceiro, há tendência temporal comum: tanto PIB quanto cobertura cresceram nos anos 2000, e qualquer série que cresça nesse período exibe correlação alta com elas (lembre da armadilha 7). Quarto, há seleção de UFs: o pesquisador pode estar olhando apenas UFs com dados completos, e UFs com pior administração ficaram de fora.
Para sair desse atoleiro, a literatura usa diferenças-em-diferenças entre UFs que adotaram o programa antes e depois, controles por tendências regionais específicas, e idealmente uma fonte exógena de variação na cobertura — por exemplo, uma regra de elegibilidade descontínua. O r de 0,42 pode até estar correto como descrição, mas como base causal ele é praticamente inútil sem desenho complementar.
Em estudos com proporções e taxas de adesão a programas sociais, a Calculadora de Intervalo de Confiança é útil para reportar a incerteza dos números; para testes formais de hipótese sobre as taxas, veja o qui-quadrado e a comparação de médias entre grupos de UFs.
Perguntas frequentes
Se r é estatisticamente significativo, posso concluir causalidade?
Não. Um r significativo apenas indica que a associação observada provavelmente não é fruto do acaso da amostragem. Ele nada diz sobre direção causal, sobre confundidores ou sobre o desenho do estudo. Em estudos observacionais, causalidade depende de um argumento que envolve teoria, desenho e técnicas de identificação, não só do valor-p.
Como saber se há confundidor?
Procure variáveis que influenciam tanto a suposta causa quanto o suposto efeito e que não estão no caminho causal entre as duas. Liste candidatos a partir da teoria da área, desenhe um diagrama causal (DAG) e tente medir essas variáveis. Se uma variável plausível como temperatura, renda ou idade pode gerar a correlação por conta própria, ela precisa ser controlada antes de qualquer afirmação causal.
Posso "controlar" o confundidor com regressão?
Em parte. Incluir um confundidor como covariável em uma regressão remove a parcela linear da associação que ele explica, mas só funciona se a variável foi bem medida, se a relação é razoavelmente linear e se não há confundidores adicionais não observados. Variáveis intermediárias ou colisores podem, ao contrário, introduzir vieses se forem incluídas sem critério.
Qual valor de r já é considerado "forte" em ciências sociais?
Em ciências sociais, valores de r entre 0,10 e 0,30 já são comuns e relevantes; entre 0,30 e 0,50 são fortes; acima de 0,50 são raros fora de medidas muito relacionadas. Em ciências físicas ou de engenharia, o padrão é mais alto, com r acima de 0,80 considerado típico para leis bem estabelecidas.
Como o paradoxo de Simpson aparece em dados de saúde pública?
Aparece quando uma associação observada na população total se inverte ou desaparece dentro de subgrupos relevantes, como faixa etária, sexo ou estado. Tratamentos que parecem piores no agregado podem ser melhores em todos os subgrupos quando há diferença sistemática na composição dos pacientes. Por isso a estratificação por variáveis clínicas importantes é uma etapa obrigatória da análise.
O que diferencia um experimento de um estudo observacional?
Em um experimento o pesquisador atribui o tratamento, em geral por sorteio, o que equilibra confundidores observados e não observados. Em um estudo observacional o tratamento já aconteceu por escolha dos sujeitos ou por circunstância, e a comparação entre grupos pode refletir essas diferenças prévias. Por isso experimentos são o padrão-ouro para inferência causal, e estudos observacionais exigem técnicas adicionais para se aproximar dessa qualidade.
Referências
- Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Hill, A. B. (1965). The environment and disease: association or causation? Proceedings of the Royal Society of Medicine, 58(5), 295–300.
- Imbens, G. W., & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
- Angrist, J. D., & Pischke, J.-S. (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.
- Bussab, W. O., & Morettin, P. A. Estatística Básica. Saraiva.
- Cunningham, S. (2020). Causal Inference: The Mixtape. Yale University Press.