Estatística para Psicologia

Um guia didático sobre teste t, valor-p, tamanho de efeito e poder estatístico — as ferramentas que transformam dados de comportamento em conclusões confiáveis na pesquisa em psicologia.

Por que psicologia depende de estatística

A psicologia é uma ciência empírica: suas afirmações sobre a mente e o comportamento não valem por intuição ou autoridade, mas porque foram testadas com dados. E aí está o desafio. Diferente de medir a altura de uma pessoa, medir ansiedade, memória, motivação ou bem-estar envolve muita variação: pessoas diferem entre si, e a mesma pessoa varia de um dia para o outro. A estatística é exatamente a ferramenta que permite enxergar um padrão real no meio dessa variação — separar o sinal (um efeito verdadeiro) do ruído (a flutuação aleatória).

Por isso a estatística aparece em praticamente todas as etapas da formação e da prática do psicólogo:

  • Ler artigos científicos. Acompanhar a literatura — condição básica da prática baseada em evidências — exige interpretar tabelas, valores-p, intervalos de confiança e tamanhos de efeito.
  • TCC, mestrado e doutorado. Quase todo trabalho de conclusão e toda dissertação ou tese em psicologia coleta dados e precisa analisá-los corretamente para sustentar suas conclusões.
  • Avaliar intervenções. Saber se uma terapia, um treino cognitivo ou um programa de prevenção realmente funciona é uma pergunta estatística.
  • Construir e usar testes psicológicos. A psicometria — a base dos instrumentos de avaliação — é estatística aplicada à mensuração.

A boa notícia: você não precisa virar matemático. Precisa entender o que cada número significa e quando cada teste se aplica. É isso que este guia desenvolve.

Variáveis e escalas de medida

Toda análise começa entendendo o que você está medindo. Uma variável é qualquer característica que pode assumir valores diferentes entre pessoas ou situações — idade, escore em uma escala de depressão, tipo de tratamento recebido. Em um estudo, distinguimos dois papéis:

  • Variável independente (VI): aquela que o pesquisador manipula ou usa para formar grupos — por exemplo, o tipo de intervenção (terapia A vs. terapia B).
  • Variável dependente (VD): aquela que se mede como resultado, esperando que ela "dependa" da VI — por exemplo, o escore de ansiedade ao final do estudo.

O segundo conceito-chave é a escala de medida, porque ela determina quais cálculos fazem sentido. As três escalas mais relevantes na psicologia são:

  • Nominal: categorias sem ordem. Sexo, estado civil, grupo experimental. Você só pode contar frequências — não existe "média de estado civil".
  • Ordinal: categorias com ordem, mas sem distância definida entre elas. Escolaridade (fundamental, médio, superior) ou um ranking de preferências. Sabemos a ordem, não o "tamanho do passo".
  • Intervalar: valores numéricos com distâncias iguais e significativas. O escore total de um inventário de depressão é tratado, na prática, como intervalar — uma diferença de 5 pontos significa o mesmo em qualquer ponto da escala.
Construtos e escalas psicométricas

A psicologia mede construtos — ideias abstratas como inteligência, autoestima ou estresse — que ninguém observa diretamente. A solução é usar uma escala psicométrica: vários itens (perguntas) cuja soma estima o construto. Para confiar nessa soma, o instrumento precisa de boa confiabilidade (mede de forma consistente) e validade (mede de fato o que pretende).

O teste de hipótese passo a passo

O teste de hipótese é o procedimento central da estatística inferencial: ele permite generalizar, com cautela, de uma amostra para a população. A lógica é parecida com a de um julgamento — partimos da presunção de "inocência" e só a abandonamos diante de evidência forte. Os passos são:

  1. Formular as hipóteses. A hipótese nula (H₀) afirma que não há efeito — por exemplo, que a média de ansiedade é igual nos dois grupos. A hipótese alternativa (H₁) afirma que diferença. É H₀ que se coloca à prova.
  2. Definir o nível de significância (α). Antes de ver os dados, escolhe-se o limite de risco aceitável de errar. Na psicologia, o padrão é α = 0,05 (5%).
  3. Coletar os dados e calcular a estatística do teste. A partir da amostra, calcula-se um valor (como a estatística t) que resume o quanto os dados se afastam de H₀.
  4. Obter o valor-p. O valor-p é a probabilidade de observar um resultado tão ou mais extremo que o seu, supondo que H₀ seja verdadeira.
  5. Decidir. Se o valor-p < α, rejeita-se H₀ — o resultado é estatisticamente significativo. Caso contrário, não se rejeita H₀.

Na prática da psicologia, o teste mais usado para comparar as médias de dois grupos é o teste t de Student. Imagine um experimento clássico: você quer saber se uma intervenção reduz a ansiedade. Mede o escore de ansiedade do grupo controle (sem intervenção) e do grupo intervenção e quer descobrir se a diferença entre as duas médias é real. Esse é o cenário típico do teste t — basta inserir as médias, os desvios padrão e os tamanhos dos grupos na calculadora de teste t para obter a estatística t e o valor-p automaticamente.

O que p < 0,05 realmente significa

O valor-p é, ao mesmo tempo, o número mais citado e o mais mal compreendido da pesquisa em psicologia. Vamos ser precisos. Um valor-p de 0,03 quer dizer: "Se a hipótese nula fosse verdadeira (se não houvesse efeito algum), haveria apenas 3% de chance de eu obter um resultado tão extremo quanto este — ou mais extremo — por puro acaso amostral."

Como esse cenário seria raro, concluímos que é mais plausível que H₀ esteja errada e que exista, de fato, um efeito. O limite de 0,05 é apenas uma convenção: abaixo dele, chamamos o resultado de estatisticamente significativo. Até aqui, tudo bem. O problema são as interpretações equivocadas, repetidas até em trabalhos publicados.

Quatro mitos sobre o valor-p

Mito 1 — "p = 0,03 significa 3% de chance de a hipótese estar errada." Falso. O valor-p é calculado supondo que H₀ é verdadeira; ele não atribui probabilidade às hipóteses.

Mito 2 — "p > 0,05 prova que não há efeito." Falso. Ausência de significância pode significar apenas que faltaram participantes para detectar um efeito real. Não rejeitar H₀ não é o mesmo que aceitá-la.

Mito 3 — "p menor significa efeito maior ou mais importante." Falso. O valor-p depende tanto do tamanho do efeito quanto do tamanho da amostra. Um efeito trivial vira "significativo" com amostra grande o bastante.

Mito 4 — "significância estatística é o mesmo que relevância prática." Falso. Significância responde "o efeito existe?"; relevância responde "o efeito importa?". São perguntas diferentes.

A lição é direta: o valor-p é útil, mas insuficiente sozinho. Ele precisa vir acompanhado do tamanho de efeito e do intervalo de confiança — os temas das próximas seções.

Tamanho de efeito: além da significância

Se o valor-p diz se há um efeito, o tamanho de efeito diz quão grande ele é. Essa distinção é tão importante que a APA (American Psychological Association) exige, em suas normas de publicação, que todo estudo relate o tamanho de efeito, e não apenas o valor-p.

Para a diferença entre duas médias — o caso do teste t — a medida mais usada é o d de Cohen. A ideia é simples e elegante: em vez de expressar a diferença na unidade original da escala (que muda de instrumento para instrumento), ela é expressa em desvios padrão. Assim, um d = 0,5 significa "as médias dos dois grupos estão a meio desvio padrão de distância", seja qual for a escala.

d = (M1 − M2) ÷ DPcombinado M1 e M2 são as médias dos dois grupos; DPcombinado é o desvio padrão agrupado (pooled) das duas amostras.

Para interpretar o valor, Cohen propôs pontos de referência — úteis como guia, desde que não sejam tratados como verdades absolutas, pois o que conta como "grande" varia entre áreas:

d de CohenTamanho do efeitoInterpretação prática
≈ 0,20PequenoDiferença sutil, perceptível só com análise cuidadosa.
≈ 0,50MédioDiferença visível a olho nu para um observador atento.
≈ 0,80GrandeDiferença substancial e evidente entre os grupos.

Quando o objetivo não é comparar médias, mas medir a relação entre duas variáveis numéricas — por exemplo, entre horas de sono e desempenho em um teste de atenção —, o tamanho de efeito é o coeficiente de correlação r de Pearson. Ele varia de −1 a +1: como referência aproximada, r em torno de 0,10 indica relação fraca, 0,30 moderada e 0,50 forte. Em ambos os casos, a mensagem é a mesma: relatar o tamanho de efeito transforma um "deu significativo" vago em uma informação que outros pesquisadores podem comparar e acumular.

Poder estatístico e tamanho de amostra

Todo teste de hipótese pode errar de duas formas. O erro tipo I é o falso positivo: rejeitar H₀ quando ela é verdadeira (afirmar um efeito que não existe). Sua probabilidade é justamente o α — em geral 5%. O erro tipo II é o falso negativo: não rejeitar H₀ quando ela é falsa (deixar passar um efeito que existe). Sua probabilidade é representada por β.

O poder estatístico é o complemento do erro tipo II: poder = 1 − β. Em palavras, é a probabilidade de o seu estudo detectar um efeito, dado que ele realmente existe. Um poder de 0,80 — o valor adotado como padrão na psicologia — significa 80% de chance de encontrar um efeito real (e, portanto, 20% de risco de não encontrá-lo). O patamar de 0,80 é uma convenção que equilibra o custo de recrutar mais participantes contra o prejuízo de um estudo que termina inconclusivo.

O poder depende de três fatores: o nível de significância (α), o tamanho de efeito esperado e — o único totalmente sob seu controle — o tamanho da amostra. Quanto maior a amostra, maior o poder. É por isso que o cálculo amostral deve ser feito antes de coletar dados:

Por que calcular a amostra antes

Um estudo subdimensionado tem poder baixo: mesmo que a intervenção funcione, é provável que o resultado saia "não significativo" — desperdiçando o esforço de todos os participantes. Já um estudo grande demais consome recursos sem necessidade. Definir o tamanho de amostra na fase de planejamento, a partir do efeito mínimo de interesse, evita os dois problemas. Use a calculadora de tamanho de amostra para estimar de quantos participantes você precisa.

Calcular o poder depois de um estudo já concluído (o chamado poder observado) tem pouca utilidade. O lugar certo da análise de poder é o projeto de pesquisa — inclusive porque comitês de ética e bancas examinadoras costumam pedir essa justificativa.

Ferramentas para a sua pesquisa

Estas calculadoras cobrem as análises mais frequentes em um TCC ou dissertação de psicologia:

Os links acima levam a conteúdos do próprio site. Caso passem a incluir indicações de parceiros, esta seção sinalizará a parceria.

A crise de replicação na psicologia

A partir de 2011, a psicologia enfrentou um abalo conhecido como crise de replicação: grandes esforços coletivos tentaram repetir estudos clássicos e descobriram que uma parcela expressiva dos resultados não se sustentava quando o experimento era refeito. A causa não foi, em geral, fraude — foram práticas de análise aparentemente inocentes que, somadas, inflam os falsos positivos. Vale conhecê-las para não repeti-las:

  • p-hacking. Mexer nos dados ou nas análises até o valor-p cruzar 0,05: testar várias variáveis e relatar só as que "deram certo", excluir participantes de forma conveniente, ou coletar mais dados e parar assim que aparece significância. Cada decisão dessas eleva o risco de um achado por acaso.
  • HARKing (Hypothesizing After the Results are Known). Olhar os resultados primeiro e, depois, apresentar como se a hipótese tivesse sido formulada antes. Isso transforma uma exploração — legítima — em uma falsa confirmação.

A resposta da comunidade científica foi um conjunto de boas práticas que hoje todo pesquisador iniciante deve adotar:

  • Pré-registro. Registrar publicamente, antes da coleta, as hipóteses, o tamanho de amostra planejado e o plano de análise. Isso separa de forma clara o que é teste confirmatório do que é exploração.
  • Relatar o tamanho de efeito. Sempre informar o d de Cohen, o r ou medida equivalente — nunca apenas o valor-p.
  • Relatar intervalos de confiança. Em vez de um veredito de "sim ou não", o intervalo de confiança mostra a faixa de valores plausíveis para o efeito, comunicando honestamente a incerteza da estimativa. Você pode calculá-lo na calculadora de intervalo de confiança.
  • Transparência. Disponibilizar dados e materiais para que outros possam verificar e replicar.

Mais do que uma má notícia, a crise de replicação tornou a psicologia uma ciência mais rigorosa — e tornou esses cuidados parte do trabalho bem feito.

Panorama dos testes mais usados

Escolher o teste certo é, na maior parte das vezes, uma questão de responder a duas perguntas: qual é o objetivo (comparar grupos ou medir relação)? e que tipo de variável está em jogo?. A tabela abaixo resume os quatro testes que você mais encontrará na pesquisa em psicologia:

TesteQuando usarExemplo em psicologia
Teste tComparar as médias de dois grupos.Ansiedade média do grupo controle vs. grupo intervenção.
ANOVAComparar as médias de três ou mais grupos.Bem-estar em três modalidades de terapia diferentes.
Correlação de PearsonMedir a relação entre duas variáveis numéricas.Relação entre horas de sono e desempenho em atenção.
Qui-quadradoMedir a associação entre duas variáveis categóricas.Relação entre sexo e preferência por um tipo de tratamento.

Vale destacar a relação entre os dois primeiros. O teste t compara exatamente dois grupos. Quando o estudo tem três ou mais grupos, a tentação é fazer vários testes t aos pares — mas isso multiplica o risco de falso positivo. A solução é a ANOVA (Análise de Variância), que compara todas as médias de uma vez com um único teste, controlando esse risco. Já a correlação de Pearson e o qui-quadrado servem a perguntas de associação, não de comparação de médias.

Um exemplo prático resolvido

Vamos juntar tudo em um caso típico de TCC. Uma pesquisadora quer avaliar se um programa de mindfulness de oito semanas reduz a ansiedade. Ela recruta 60 estudantes universitários e os distribui aleatoriamente em dois grupos. Ao final, todos respondem a um inventário de ansiedade (escore de 0 a 60, em que mais é pior). Os resultados:

GruponMédiaDesvio padrão
Controle (lista de espera)3032,48,1
Intervenção (mindfulness)3026,77,6
  1. Hipóteses. H₀: a média de ansiedade é igual nos dois grupos. H₁: as médias são diferentes. O nível de significância é fixado em α = 0,05.
  2. Teste escolhido. São duas médias independentes a comparar — o caso do teste t para amostras independentes.
  3. Cálculo da estatística t. Inserindo as médias (32,4 e 26,7), os desvios padrão (8,1 e 7,6) e os tamanhos (30 e 30) na calculadora, obtém-se t ≈ 2,81 com 58 graus de liberdade.
  4. Valor-p. Para esse t, o valor-p bicaudal é ≈ 0,007 — abaixo de 0,05. Rejeita-se H₀: a diferença é estatisticamente significativa.
  5. Tamanho de efeito. O d de Cohen é d = (32,4 − 26,7) ÷ 7,85 ≈ 0,73 — um efeito de magnitude próxima de "grande", ou seja, prático e relevante, não apenas significativo.
  6. Conclusão. Há evidência de que o programa de mindfulness reduziu a ansiedade, e o efeito tem tamanho expressivo. O relato completo informaria também o intervalo de confiança da diferença entre as médias.

Repare como o passo 5 dá sentido ao passo 4: o valor-p confirmou que o efeito existe, mas foi o d de Cohen que mostrou que ele importa. Esse é o padrão de uma análise bem feita em psicologia.

Perguntas frequentes

Preciso saber estatística para fazer psicologia?

Sim. Mesmo na atuação clínica, ler artigos científicos, avaliar se uma intervenção funciona e produzir TCC, dissertação ou tese exigem entender valor-p, tamanho de efeito e tamanho de amostra. A estatística é a linguagem da pesquisa empírica em psicologia — você não precisa dominar a matemática, mas precisa saber interpretar os resultados.

O que significa p < 0,05 na pesquisa em psicologia?

Significa que, se não houvesse efeito real (hipótese nula verdadeira), a probabilidade de obter um resultado tão extremo quanto o seu seria menor que 5%. Não é a probabilidade de a hipótese estar certa ou errada, e não diz nada sobre o tamanho ou a importância do efeito.

Qual a diferença entre valor-p e tamanho de efeito?

O valor-p indica se um efeito provavelmente existe; o tamanho de efeito indica quão grande ele é. Com uma amostra grande, diferenças minúsculas ficam significativas. Por isso a APA recomenda sempre relatar o tamanho de efeito, como o d de Cohen, ao lado do valor-p.

O que é o d de Cohen e como interpretá-lo?

É uma medida padronizada de tamanho de efeito para a diferença entre duas médias, expressa em desvios padrão. Como referência, d ≈ 0,2 é um efeito pequeno, d ≈ 0,5 é médio e d ≈ 0,8 é grande. Esses valores são guias, não regras rígidas — o que é "grande" depende da área de pesquisa.

Por que o poder estatístico de 0,80 é o padrão?

Poder de 0,80 significa 80% de chance de detectar um efeito que realmente existe — e, portanto, 20% de risco de um falso negativo. É uma convenção que equilibra o custo de recrutar mais participantes com o prejuízo de um estudo inconclusivo. O cálculo de poder deve ser feito no planejamento, antes da coleta.

Como escolher o teste estatístico certo?

Depende do objetivo e do tipo de variável: use o teste t para comparar as médias de dois grupos, a ANOVA para três ou mais grupos, a correlação de Pearson para a relação entre duas variáveis numéricas e o qui-quadrado para a associação entre duas variáveis categóricas.

Pronto para analisar a sua pesquisa

Compare as médias do seu grupo controle e do grupo intervenção em segundos, com valor-p e interpretação didática.

Abrir a calculadora de teste t