O que é o p-valor (e por que ele é tão mal interpretado)
Se você abriu qualquer artigo científico brasileiro nos últimos vinte anos — uma dissertação de saúde pública, um paper da ANPOCS, um relatório do IBGE ou uma análise da SBPC — viu o p-valor aparecer em quase toda tabela de resultados. Ele é tão onipresente que virou um selo de qualidade automático: se p < 0,05, o resultado "deu certo"; se p > 0,05, "não deu". E é aí que mora o problema. O p-valor não responde à pergunta que a maioria dos pesquisadores acha que ele responde.
A gente costuma ouvir frases como "o p-valor mostra que existe 4% de chance de o resultado ser fruto do acaso" ou "se p < 0,05, a hipótese nula é falsa". Nenhuma das duas está correta. E não é frescura terminológica — interpretar o p-valor errado leva a decisões erradas: medicamentos que não funcionam parecem funcionar, políticas públicas perdem o foco e teses defendem conclusões que os dados não suportam. A Associação Americana de Estatística (ASA) publicou um pronunciamento histórico em 2016 justamente porque o uso indevido do p-valor estava distorcendo a literatura científica mundial — e o Brasil não é exceção.
Antes de entrar nos erros, vale pegar a definição com calma. Porque entender o que o p-valor é resolve, sozinho, metade da confusão.
A definição formal: a probabilidade SOB H₀
O p-valor é uma probabilidade condicional. Ele responde à pergunta: "se a hipótese nula (H₀) for verdadeira, qual a probabilidade de eu observar dados tão extremos quanto os que observei — ou ainda mais extremos?"
Repare em três detalhes que mudam tudo. Primeiro: o p-valor parte da suposição de que H₀ é verdadeira. Ele não nos diz nada direto sobre a probabilidade de H₀ — apenas sobre a probabilidade dos dados. Segundo: o que conta como "tão extremo ou mais" depende do teste — pode ser uma diferença de médias num teste t de Student, uma diferença de proporções num teste de proporção, ou uma estatística qui-quadrado num teste qui-quadrado. Terceiro: a definição não diz nada sobre causa, efeito ou importância prática. É puramente uma medida de compatibilidade entre os dados e H₀.
Uma analogia ajuda. Imagine um juiz que parte do princípio de que o réu é inocente (essa é a H₀). O p-valor seria algo como: "se ele for inocente, quão estranhas seriam as provas que vi?" Um p baixo é equivalente a dizer "as provas seriam muito estranhas sob a hipótese da inocência" — o que torna a inocência menos plausível, mas não diz qual a probabilidade de ele ser culpado. Para isso você precisaria saber, antes, qual a chance a priori de culpa. Esse é exatamente o salto que o p-valor não dá — e que muita gente dá por cima dele sem perceber.
Os 5 erros mais comuns de interpretação no Brasil
Olhando teses, dissertações e matérias de jornal, dá para listar cinco erros que reaparecem com uma frequência impressionante. Vale conferir se algum deles está no seu próprio texto.
1. "O p-valor é a probabilidade de a hipótese nula ser verdadeira"
Este é o erro mais comum e o mais grave. O p-valor é Pr(dados | H₀), não Pr(H₀ | dados). Não dá para inverter uma probabilidade condicional sem saber a probabilidade a priori — é o mesmo equívoco de quem confunde "probabilidade de ter doença dado o teste positivo" com "probabilidade de o teste dar positivo dado que tem doença". Em pesquisas brasileiras de epidemiologia, é fácil ver autores escreverem "há 96% de probabilidade de que o tratamento funcione (p = 0,04)" — uma frase que, formalmente, é incorreta. O p-valor não autoriza nenhuma afirmação direta sobre a probabilidade da hipótese.
2. "p > 0,05 significa que não há diferença"
Não. Um p alto significa que os dados não fornecem evidência suficiente para rejeitar H₀ — não que H₀ seja verdadeira. Em pesquisas eleitorais brasileiras isso aparece com frequência: o Datafolha divulga que dois candidatos estão "empatados tecnicamente" porque a diferença entre eles não é estatisticamente significativa. Mas "empate técnico" não quer dizer que a diferença real é zero — quer dizer que, com aquela amostra, não dá para descartar o zero. Pode ser que um esteja realmente à frente; só que para confirmar precisaríamos de mais amostra. A ausência de evidência não é evidência de ausência.
3. "Quanto menor o p-valor, maior o efeito"
Esse erro aparece muito em estudos clínicos brasileiros publicados em revistas da SBPC. Um p = 0,001 não significa que o efeito é dez vezes maior que um p = 0,01. O p-valor mistura tamanho do efeito e tamanho amostral — um efeito minúsculo, com uma amostra de cem mil pessoas, pode gerar um p ridiculamente pequeno sem nenhuma relevância prática. É por isso que ensaios com cohorts gigantes do IBGE conseguem detectar efeitos que, na prática clínica, ninguém perceberia.
4. "Se p < 0,05, o resultado é importante"
Significância estatística e significância prática são coisas diferentes. Uma diferença de 0,3 ponto de IMC entre dois grupos pode ser estatisticamente significativa numa amostra de quinze mil pacientes — mas clinicamente irrelevante. Em pesquisas educacionais do INEP, isso é especialmente comum: com bases tão grandes, quase tudo "dá significativo". O bom pesquisador olha o p, sim, mas pergunta em seguida: quão grande foi o efeito?
5. "Posso testar várias hipóteses e ficar com as que deram p < 0,05"
Esse é o famoso p-hacking. Quando você roda vinte testes independentes e mantém só os significativos, está praticamente garantindo um falso positivo — porque, em vinte testes sob H₀ verdadeira, espera-se em média um com p < 0,05 só por acaso. Em pesquisas brasileiras de epidemiologia ambiental, com muitas variáveis e poucas correções para múltiplos testes, isso vira regra. Ferramentas como correção de Bonferroni, Holm ou FDR existem justamente para isso, e ignorá-las infla a literatura com resultados que não se replicam.
Exemplo aplicado: uma pesquisa de intenção de voto
Vamos a um caso concreto, do tipo que aparece quase toda semana em ano eleitoral. Suponha que um instituto entrevista 1.200 eleitores brasileiros e encontra 52% de intenção de voto para o candidato A e 48% para o B. A pergunta é: o candidato A está realmente à frente, ou essa diferença de 4 pontos pode ser apenas variação amostral?
A hipótese nula H₀ diz que a verdadeira proporção entre A e B é 50/50 — ou seja, que não há diferença real e os 4 pontos vieram do acaso da amostragem. Para testar isso, podemos usar um teste Z para diferença de proporções (ou um teste de proporção equivalente). Sob H₀, o erro padrão da diferença é cerca de 0,0204, então a estatística t (aproximadamente Z, pelo tamanho da amostra) fica:
O p-valor bilateral correspondente é p ≈ 0,050 — bem na borda do nosso critério usual. O gráfico abaixo mostra exatamente o que esse p representa: a probabilidade, sob a curva da distribuição t, de observar uma estatística tão extrema quanto a nossa se H₀ for verdadeira.
Esse exemplo ilustra um dilema clássico: o p está tão na fronteira que é difícil tomar decisão clara. Se o instituto tivesse entrevistado 1.500 eleitores em vez de 1.200, o mesmo padrão de respostas geraria p < 0,01. Se tivesse entrevistado só 800, o mesmo padrão daria p > 0,10 — e o resultado seria descartado. Por isso a discussão sobre "empate técnico" no Brasil é tão delicada: ela depende muito mais do n da pesquisa do que do tamanho real da diferença entre os candidatos.
P-valor não é tamanho do efeito
Volto ao ponto porque ele merece um capítulo só: p-valor pequeno não significa efeito grande. O p-valor depende de três coisas — o tamanho do efeito, a variabilidade dos dados e o tamanho da amostra. Aumente o n e o mesmo efeito gera um p cada vez menor; em tese, qualquer efeito não nulo eventualmente vira "estatisticamente significativo" se você coletar amostra grande o bastante.
O que reportar então? O tamanho do efeito. Em comparações de médias, isso é o d de Cohen ou similar. Em proporções, o risco relativo ou a razão de chances. Em regressões, os coeficientes padronizados. Esses números dizem quão grande é a diferença, independentemente da amostra. E é justamente isso que falta na maior parte das pesquisas brasileiras que se contentam em reportar "p < 0,05" e seguir adiante.
A diferença entre p-valor e nível de significância (α)
O α é uma decisão sua, tomada antes de coletar os dados: qual taxa de falsos positivos você aceita correr? Por convenção, na maioria das áreas é 5% (α = 0,05). Em estudos críticos — ensaios clínicos de fase III, decisões regulatórias — costuma cair para 1% (α = 0,01) ou 0,1%.
Já o p-valor é resultado dos dados, calculado depois do experimento. A regra de decisão clássica é simples: se p < α, rejeito H₀. Mas confundir os dois leva a interpretações canhotas — frases como "encontrei um p-valor de 5%" quando o que se quis dizer foi "usei α = 5% como critério" são comuns em monografias. Vale ainda lembrar que o α é uma escolha; não há uma propriedade matemática que torne 0,05 mais correto que 0,037 ou 0,062. O 0,05 virou padrão por inércia, e a comunidade de estatística vem repetidamente debatendo se devíamos mudá-lo — alguns autores defendem 0,005 como novo limiar para "descobertas" em áreas com alto risco de irreproducibilidade.
Como reportar p-valor seguindo ABNT/SBPC
As normas da ABNT não detalham casas decimais de p-valor, mas convenções da SBPC e das revistas brasileiras consolidaram algumas práticas que vale seguir:
- Use vírgula decimal (p = 0,034), não ponto, em textos em português.
- Três casas decimais são o padrão para p entre 0,001 e 0,999. Para valores menores, escreva p < 0,001, não p = 0,000. Um p-valor literalmente igual a zero não existe — ele é sempre estritamente positivo.
- Não use estrelinhas isoladamente (*** etc.) em tabelas sem reportar também o valor numérico. Estrelas ajudam a leitura, mas ocultam diferenças entre 0,049 e 0,001.
- Diga se o teste é uni ou bilateral e qual foi o α adotado. "Adotou-se α = 0,05, com testes bilaterais" resolve, e evita que o leitor fique adivinhando.
- Reporte sempre o teste usado — t de Student, qui-quadrado, Mann-Whitney —, os graus de liberdade quando aplicáveis e o tamanho amostral.
- Acompanhe o p de uma medida de efeito, como d de Cohen, risco relativo ou diferença média com intervalo de confiança.
Um exemplo de redação adequada, no espírito SBPC: "A média do grupo intervenção (M = 12,4; DP = 3,1) foi significativamente maior que a do grupo controle (M = 10,8; DP = 2,9); t(58) = 2,08; p = 0,042; d de Cohen = 0,53 (IC 95%: 0,02 a 1,03)."
Para além do p-valor: intervalo de confiança + tamanho do efeito
A discussão moderna na estatística aplicada — refletida no posicionamento da ASA e em editoriais de revistas como The American Statistician e Nature Methods — é unânime em um ponto: o p-valor sozinho diz pouco. O caminho é triplicar a informação reportada: tamanho do efeito (quão grande), intervalo de confiança (quão preciso) e p-valor (quão compatível com H₀).
O intervalo de confiança costuma ser mais informativo que o p porque mostra a faixa de valores plausíveis para o parâmetro. Um IC 95% para diferença de médias entre [0,1; 5,0] indica resultado significativo, mas com enorme incerteza — talvez o efeito seja minúsculo, talvez relevante. Já um IC [2,4; 2,7] mostra efeito pequeno mas precisamente estimado. O p-valor não diferencia esses dois cenários; o IC sim.
Vale também o esforço inverso: planejar o n antes de coletar os dados. Uma calculadora de tamanho amostral permite estimar quantos sujeitos são necessários para detectar um efeito de interesse com poder estatístico adequado (geralmente 80%). Pesquisas brasileiras subdimensionadas — comuns em mestrados com prazo apertado — terminam reportando p > 0,05 e concluindo, erroneamente, que "não há diferença", quando na verdade a amostra era pequena demais para detectar a diferença que existe.
Perguntas frequentes
Posso dizer que H₀ é verdadeira porque p > 0,05?
Não. Um p-valor alto significa apenas que os dados não dão evidência suficiente para rejeitar H₀, não que H₀ seja verdadeira. A ausência de evidência não é evidência de ausência — pode ser que o efeito exista, mas a amostra tenha sido pequena demais para detectá-lo.
Qual a diferença entre p-valor unilateral e bilateral?
O p-valor bilateral considera desvios da H₀ em qualquer direção (maior ou menor). O unilateral considera apenas uma direção pré-especificada. Use unilateral apenas quando houver justificativa teórica forte para esperar desvio numa única direção; o bilateral é o padrão na maioria das pesquisas brasileiras.
Se p = 0,04, posso dizer que a chance do resultado ser ao acaso é 4%?
Não. Esse é um dos erros mais comuns. O p-valor é a probabilidade de observar um resultado tão extremo quanto o seu SE a hipótese nula for verdadeira. Ele não é a probabilidade de a hipótese nula ser verdadeira, nem a probabilidade de o resultado ser fruto do acaso.
Por que p < 0,05 e não p < 0,01?
O limiar de 0,05 é uma convenção histórica proposta por Ronald Fisher na década de 1920. Não há nada matematicamente especial nele. Em estudos de alto risco, como ensaios clínicos de fase III, usa-se 0,01 ou níveis ainda menores. O importante é escolher o nível antes de coletar os dados.
P-valor é a mesma coisa para todos os testes?
Conceitualmente, sim: é sempre a probabilidade de observar dados tão extremos quanto os seus sob a hipótese nula. Mas o cálculo muda conforme o teste — teste t usa a distribuição t, qui-quadrado usa a distribuição qui-quadrado, e assim por diante. A interpretação, porém, é a mesma.
Como o tamanho amostral afeta o p-valor?
Quanto maior a amostra, menor o erro padrão e mais sensível o teste — efeitos pequenos passam a gerar p-valores baixos. Em amostras muito grandes, diferenças triviais ficam estatisticamente significativas. Por isso é fundamental reportar o tamanho do efeito e o intervalo de confiança junto com o p-valor.
Referências
- Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133.
- Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), e124.
- Bussab, W. O., & Morettin, P. A. (2017). Estatística Básica (9ª ed.). São Paulo: Saraiva.
- Field, A. (2018). Discovering Statistics Using IBM SPSS Statistics (5th ed.). London: Sage.
- Magalhães, M. N., & Lima, A. C. P. (2015). Noções de Probabilidade e Estatística (7ª ed.). São Paulo: EdUSP.