Qual teste estatístico devo usar na minha pesquisa de enfermagem?

Depende do tipo de dado. Para comparar médias entre dois grupos (dor, pressão, tempo de internação), use o teste t. Para comparar proporções ou taxas (taxa de infecção, adesão), use o teste de proporção. Para estimar uma média ou prevalência, use o intervalo de confiança.

Estatística para Enfermagem: Guia Prático e Didático

Q: Preciso saber estatística para trabalhar na enfermagem?

Sim, no nível de interpretação. Você não precisa calcular testes à mão, mas precisa entender valor-p, intervalo de confiança e medidas de efeito para ler artigos científicos, fundamentar a prática baseada em evidências e produzir TCC, monografias e trabalhos de pós-graduação.

Q: O que significa p<0,05 em um artigo de enfermagem?

Significa que, se não existisse diferença real entre os grupos, a probabilidade de observar uma diferença tão grande quanto a do estudo seria menor que 5%. Indica significância estatística, mas não mede o tamanho do efeito nem garante relevância clínica.

Q: Qual é a diferença entre risco relativo e razão de chances?

O risco relativo (RR) compara a probabilidade de um desfecho entre dois grupos e é usado em ensaios clínicos e coortes. A razão de chances (odds ratio) compara chances, não probabilidades, e é típica de estudos caso-controle. Quando o desfecho é raro, os dois valores ficam próximos.

Q: O que é o número necessário para tratar (NNT)?

O NNT é quantos pacientes precisam receber uma intervenção para evitar um desfecho ruim a mais em comparação ao grupo controle. É o inverso da redução absoluta de risco. Quanto menor o NNT, mais eficiente é a intervenção.

Q: Um resultado não significativo prova que o tratamento não funciona?

Não. Ausência de significância estatística não é prova de ausência de efeito. Em geral indica que a amostra foi pequena demais para detectar a diferença. Avalie o intervalo de confiança e o tamanho da amostra antes de concluir que não há efeito.

Por que enfermagem precisa de estatística

A enfermagem moderna é uma profissão baseada em evidências. Isso significa que as decisões de cuidado — qual curativo usar, com que frequência mudar o paciente de decúbito, como orientar a adesão a um tratamento — devem se apoiar em pesquisa de boa qualidade, e não apenas na tradição ou na intuição. E pesquisa de boa qualidade vem quase sempre embalada em números: porcentagens, médias, valores-p e intervalos de confiança.

Você não precisa virar estatístico. O objetivo deste guia é diferente e mais útil: capacitar você a interpretar a estatística que encontra, sem decorar fórmulas. Na prática, isso aparece em quatro frentes do cotidiano do enfermeiro:

Ler artigos científicos. Diretrizes, protocolos institucionais e revisões trazem resultados estatísticos. Entender o que eles dizem — e o que não dizem — é o que separa aplicar uma evidência de repetir um boato.
Prática baseada em evidências. Avaliar criticamente um estudo antes de mudar uma conduta exige saber distinguir um efeito real de um achado frágil.
TCC, monografia e pós-graduação. Trabalhos de conclusão, especializações e mestrados profissionais quase sempre envolvem coletar dados e analisá-los. Saber escolher o teste certo evita retrabalho e bancas difíceis.
Indicadores assistenciais. Taxa de infecção hospitalar, incidência de lesão por pressão, taxa de queda, tempo médio de internação — todo serviço de enfermagem monitora indicadores, e interpretá-los corretamente orienta a melhoria contínua.

A meta deste guia

Ao final, você deve ser capaz de abrir um artigo de enfermagem, encontrar o valor-p e o intervalo de confiança, dizer com suas palavras o que eles significam e julgar se o resultado é forte o bastante para mudar uma conduta.

Os conceitos que mais aparecem nos artigos

Antes de interpretar resultados, vale fixar cinco conceitos. Eles aparecem em praticamente todo artigo quantitativo de enfermagem.

População e amostra. A população é o conjunto completo de pessoas sobre quem você quer concluir algo — por exemplo, todos os pacientes internados em unidades de clínica médica do Brasil. Como é impossível estudar todo mundo, o pesquisador examina uma amostra: um subconjunto menor. Toda a estatística existe para responder a uma pergunta: o que vi nesta amostra também vale para a população?

Variável. É qualquer característica que pode assumir valores diferentes entre os participantes. Variáveis quantitativas são numéricas (idade, pressão arterial, escore de dor, tempo de internação). Variáveis qualitativas ou categóricas representam categorias (sexo, presença ou ausência de infecção, tipo de curativo). Saber o tipo de variável é o primeiro passo para escolher o teste certo.

Média e desvio padrão. A média é o valor típico de uma variável quantitativa — some todos os valores e divida pela quantidade. Mas a média sozinha esconde informação: dois grupos podem ter a mesma média de dor e níveis de sofrimento bem diferentes. Por isso vem acompanhada do desvio padrão, que mede o quanto os valores se espalham em torno da média. Desvio padrão pequeno significa grupo homogêneo; grande, grupo heterogêneo.

Valor-p. É a probabilidade de observar um resultado tão extremo quanto o do estudo se na realidade não houvesse efeito algum. É a ferramenta que separa um achado real do acaso da amostragem. Voltaremos a ele em detalhe na próxima seção.

Intervalo de confiança. Como a amostra é só uma parte da população, qualquer número que ela produz traz incerteza. O intervalo de confiança expressa essa incerteza: em vez de um único valor, ele oferece uma faixa de valores plausíveis para o resultado real na população.

Em uma frase

O estudo mede uma amostra; queremos concluir sobre a população. O valor-p diz se o achado é forte o bastante para não ser acaso, e o intervalo de confiança diz o tamanho provável desse achado na população real.

Como ler o valor-p sem cair em armadilhas

O valor-p é, ao mesmo tempo, o número mais citado e o mais mal interpretado da literatura em saúde. Vale entender exatamente o que ele responde. Imagine um estudo que compara dois protocolos de prevenção de infecção. O valor-p responde à pergunta: "Se os dois protocolos fossem na verdade igualmente eficazes, qual seria a probabilidade de eu observar, só por sorte da amostragem, uma diferença tão grande quanto a que medi?"

Um valor-p pequeno significa que o resultado observado seria muito improvável num mundo sem diferença real — logo, é mais plausível que a diferença exista. O limite convencional é 0,05 (5%):

p < 0,05 → diferença estatisticamente significativa. Há evidência de um efeito real.
p ≥ 0,05 → diferença não significativa. Não há evidência suficiente para afirmar que existe efeito.

Até aqui, tudo simples. O problema mora no que o valor-p não é. Esta é a parte que mais derruba leitores de artigos e bancas de TCC:

O que o valor-p NÃO significa

O valor-p não é a probabilidade de a hipótese estar certa ou errada. Um p de 0,03 não quer dizer "97% de chance de o tratamento funcionar". Ele também não mede o tamanho do efeito: um p minúsculo pode acompanhar uma diferença clínica irrelevante. E "p ≥ 0,05" não prova que os grupos são iguais — costuma significar apenas que a amostra foi pequena demais para detectar a diferença.

A armadilha mais importante para a enfermagem é a confusão entre significância estatística e relevância clínica. Significância estatística responde "a diferença é real?". Relevância clínica responde "a diferença importa para o paciente?". São perguntas diferentes.

Um exemplo: um estudo com 9.000 pacientes encontra que um novo protocolo reduz o tempo de internação em 1,5 hora, com p = 0,001. A diferença é estatisticamente significativa, sem dúvida. Mas 1,5 hora em uma internação de vários dias talvez não justifique treinar toda a equipe e mudar a rotina. Com amostras grandes, diferenças minúsculas e sem importância prática viram "significativas" com facilidade. Por isso, depois de olhar o valor-p, sempre pergunte: qual é o tamanho do efeito, e ele muda a vida do paciente?

Intervalo de confiança: o número mais informativo

Se você só pudesse olhar um número em um artigo clínico, deveria escolher o intervalo de confiança (IC), e não o valor-p. A razão é simples: o valor-p dá uma resposta de "sim ou não", enquanto o intervalo de confiança mostra o tamanho provável do efeito e o quanto de incerteza ele carrega.

Um IC de 95% é a forma mais comum. A leitura prática é: "os métodos do estudo produzem, na grande maioria das vezes, uma faixa que contém o verdadeiro valor da população". Quanto mais estreito o intervalo, mais precisa é a estimativa; quanto mais largo, mais incerta — em geral por causa de amostra pequena.

O intervalo de confiança traz, de graça, três informações que o valor-p sozinho não dá:

O tamanho do efeito. Um IC para a redução do tempo de internação de "12 a 36 horas" diz muito mais que um simples "p < 0,05".
A precisão do estudo. Um IC estreito (por exemplo, 24 a 28 horas) inspira mais confiança que um largo (2 a 50 horas), mesmo que ambos sejam significativos.
A própria significância. Há um atalho: para uma diferença entre grupos, se o IC de 95% inclui o zero, o resultado não é significativo a 5%. Para uma razão (risco relativo, odds ratio), o número de "nenhum efeito" é o 1 — se o IC inclui o 1, não é significativo.

Dois estudos, mesmo valor-p

Dois estudos relatam "p = 0,04" para a redução de quedas com um programa de orientação. O estudo 1 traz IC de 95% de 2% a 38% de redução; o estudo 2, de 18% a 22%. Os dois são significativos, mas o estudo 2 é muito mais útil: ele diz com precisão quanto esperar. O estudo 1 é compatível tanto com um efeito quase nulo quanto com um efeito grande.

Quando você mesmo for estimar uma média ou uma prevalência na sua pesquisa, pode calcular o IC diretamente na calculadora de intervalo de confiança.

Medidas de efeito: RR, odds ratio, RRA e NNT

Artigos da área da saúde quase nunca se contentam com "houve diferença". Eles quantificam o efeito com medidas específicas. As quatro mais comuns na enfermagem aparecem abaixo. Para fixar, vamos usar um único exemplo: um estudo compara uma escova dental especial (grupo intervenção) com a escova comum (grupo controle) na prevenção de pneumonia associada à ventilação mecânica.

Grupo	Pacientes	Com pneumonia	Risco
Controle — escova comum	200	40	20%
Intervenção — escova especial	200	24	12%

A partir desses dois riscos — 20% no controle e 12% na intervenção — derivam-se todas as medidas de efeito:

Risco relativo (RR). É o risco do desfecho no grupo intervenção dividido pelo risco no grupo controle: RR = 12% ÷ 20% = 0,60. Interpretação: quem usou a escova especial teve 60% do risco do grupo controle, ou seja, uma redução de 40% no risco relativo. RR igual a 1 significa "nenhum efeito"; menor que 1, fator de proteção; maior que 1, fator de risco. É a medida típica de ensaios clínicos e coortes.
Razão de chances (odds ratio, OR). Trabalha com chances, não com probabilidades. A chance no controle é 40÷160 = 0,25; na intervenção, 24÷176 ≈ 0,136. OR = 0,136 ÷ 0,25 ≈ 0,55. É a medida típica dos estudos caso-controle. Quando o desfecho é raro, a OR fica próxima do RR; quando o desfecho é comum, a OR exagera o efeito e deve ser lida com cuidado.
Redução absoluta de risco (RRA). É a diferença direta entre os riscos: RRA = 20% − 12% = 8 pontos percentuais. Diferente do risco relativo, a RRA mostra o impacto real na população estudada. Uma redução relativa de 40% pode parecer enorme, mas se o risco de base fosse 1%, a redução absoluta seria de apenas 0,4 ponto.
Número necessário para tratar (NNT). É o inverso da redução absoluta de risco: NNT = 1 ÷ 0,08 = 12,5, ou seja, 13 pacientes. Interpretação: é preciso usar a escova especial em 13 pacientes para evitar um caso de pneumonia que ocorreria com a escova comum. Quanto menor o NNT, mais eficiente a intervenção. O NNT traduz a estatística em uma linguagem direta de cuidado.

Risco relativo engana; risco absoluto e NNT esclarecem

Manchetes e resumos adoram a redução relativa ("o risco caiu 40%!") porque o número soa impressionante. Mas o que importa para o paciente é a redução absoluta e o NNT. Sempre que ler "reduziu X% o risco", procure o risco de base e, se possível, o NNT — só assim você sabe se o efeito é grande de verdade.

Tipos de estudo e nível de evidência

Nem toda evidência tem o mesmo peso. O delineamento do estudo — como ele foi planejado — determina o quanto podemos confiar em suas conclusões, especialmente sobre causa e efeito. Conhecer os principais tipos ajuda você a calibrar o quanto levar a sério um artigo.

Tipo de estudo	Como funciona	Força da evidência
Revisão sistemática e metanálise	Reúne e combina estatisticamente vários estudos sobre a mesma pergunta.	Muito alta
Ensaio clínico randomizado (ECR)	Sorteia os participantes entre intervenção e controle; é o padrão-ouro para testar tratamentos.	Alta
Coorte	Acompanha grupos expostos e não expostos ao longo do tempo para ver quem desenvolve o desfecho.	Moderada
Caso-controle	Parte de quem já tem o desfecho e olha para trás em busca de exposições passadas.	Moderada a baixa
Transversal (prevalência)	Mede exposição e desfecho num único momento; bom para descrever, fraco para causa e efeito.	Baixa
Relato e série de casos	Descreve um ou poucos pacientes; gera hipóteses, não conclusões.	Muito baixa

A lógica dessa hierarquia é o controle de vieses. No ensaio clínico randomizado, o sorteio distribui de forma equilibrada características conhecidas e desconhecidas entre os grupos, o que permite atribuir a diferença à intervenção. Nos estudos observacionais — coorte, caso-controle, transversal — não há sorteio, então fatores de confusão podem mascarar ou inflar o efeito. Isso não os torna inúteis: muitas perguntas de enfermagem (cuidado, percepção, prevalência) não podem ser sorteadas e dependem de bons estudos observacionais. Só significa que a conclusão pede mais cautela.

Qual teste usar em cada situação

Quando chega a hora de analisar os seus próprios dados — no TCC, na especialização ou num projeto de melhoria do serviço —, a pergunta inevitável é "qual teste eu uso?". A resposta depende do que você está comparando. Três situações cobrem a maioria das pesquisas de enfermagem.

Comparar médias de uma variável numérica entre dois grupos. Use o teste t de Student. É o caso quando o desfecho é um número: escore de dor, pressão arterial, tempo de internação, nível de ansiedade, glicemia. Exemplo: a dor média após o curativo A é diferente da dor média após o curativo B?

Comparar proporções ou taxas entre grupos. Use o teste de proporção. É o caso quando o desfecho é "sim ou não": teve infecção ou não, aderiu ao tratamento ou não, houve queda ou não. Exemplo: a taxa de infecção do sítio cirúrgico difere entre dois protocolos de antissepsia?

Estimar uma única média ou prevalência. Use o intervalo de confiança. É o caso quando você não compara grupos, apenas descreve: qual é o tempo médio de internação na unidade? Qual é a prevalência de lesão por pressão? O IC entrega o valor e a margem de incerteza.

Exemplo resolvido: tempo de cicatrização entre dois curativos

Uma enfermeira quer saber se um novo curativo de hidrocoloide cicatriza feridas mais rápido que o curativo convencional. Como o desfecho é numérico (dias até a cicatrização), o teste indicado é o teste t.

Definir a pergunta e a hipótese nula. Pergunta: o tempo médio de cicatrização difere entre os dois curativos? Hipótese nula: não há diferença — as médias dos dois grupos são iguais na população.
Coletar os dados de cada grupo. Grupo convencional: 30 pacientes, tempo médio de 21 dias, desvio padrão de 5 dias. Grupo hidrocoloide: 30 pacientes, tempo médio de 17 dias, desvio padrão de 4 dias.
Escolher o teste. Duas médias, dois grupos independentes, variável numérica → teste t para amostras independentes.
Rodar o teste. Informe médias, desvios padrão e tamanhos de amostra na calculadora de teste t. Ela devolve a estatística t, o valor-p e o intervalo de confiança da diferença.
Interpretar. Suponha valor-p = 0,002 e IC de 95% da diferença de 1,5 a 6,5 dias. Como p < 0,05, a diferença é estatisticamente significativa; como o intervalo não inclui o zero, ele confirma a significância. O hidrocoloide reduziu a cicatrização em algo entre 1,5 e 6,5 dias.
Avaliar a relevância clínica. Uma redução de até 6,5 dias na cicatrização é clinicamente importante: menos tempo de tratamento, menos risco de infecção, menos custo. Aqui significância estatística e relevância clínica caminham juntas — e essa é a conclusão que sustenta uma mudança de protocolo.

Erros comuns ao interpretar estatística

Mesmo profissionais experientes tropeçam nas mesmas armadilhas ao ler ou produzir estatística. Conhecê-las de antemão protege a sua leitura crítica e o seu trabalho acadêmico:

Confundir significância estatística com relevância clínica. O erro número um. Um p minúsculo não garante que o efeito importe para o paciente. Sempre verifique o tamanho do efeito.
Achar que "p ≥ 0,05" prova ausência de efeito. Resultado não significativo costuma significar amostra pequena demais, não "tratamentos iguais". Ausência de evidência não é evidência de ausência.
Olhar só a redução relativa. "Reduziu 50% o risco" impressiona, mas pode esconder uma redução absoluta minúscula se o risco de base for baixo. Procure sempre a RRA e o NNT.
Tratar correlação como causa. Dois fenômenos andarem juntos não prova que um cause o outro. Só delineamentos como o ensaio randomizado sustentam afirmações fortes de causa e efeito.
Ignorar o tamanho e a representatividade da amostra. Um estudo com 18 pacientes de um único hospital dificilmente fala pela população. Amostra pequena gera intervalos de confiança largos e conclusões frágeis.
Generalizar além da população estudada. Um resultado obtido em idosos internados em UTI não vale automaticamente para gestantes na atenção básica. Confira se a amostra do estudo se parece com os seus pacientes.
Escolher o teste errado para o tipo de variável. Aplicar teste de média a dados categóricos — ou o contrário — invalida a análise. Defina primeiro se a variável é numérica ou categórica.

Perguntas frequentes

Preciso saber estatística para trabalhar na enfermagem?

No nível de interpretação, sim. Você não precisa calcular testes à mão, mas precisa entender valor-p, intervalo de confiança e medidas de efeito para ler artigos científicos com senso crítico, sustentar a prática baseada em evidências e produzir TCC, monografias e trabalhos de pós-graduação.

O que significa p<0,05 em um artigo de enfermagem?

Significa que, se não existisse diferença real entre os grupos, a probabilidade de observar uma diferença tão grande quanto a do estudo seria menor que 5%. Indica significância estatística — mas não mede o tamanho do efeito nem garante que ele seja clinicamente relevante.

Qual é a diferença entre risco relativo e razão de chances?

O risco relativo (RR) compara probabilidades de um desfecho entre dois grupos e é usado em ensaios clínicos e coortes. A razão de chances (odds ratio) compara chances, não probabilidades, e é típica de estudos caso-controle. Quando o desfecho é raro, os dois valores ficam próximos; quando é comum, a odds ratio exagera o efeito.

O que é o número necessário para tratar (NNT)?

É quantos pacientes precisam receber uma intervenção para evitar um desfecho ruim a mais em comparação ao grupo controle. Matematicamente, é o inverso da redução absoluta de risco. Quanto menor o NNT, mais eficiente é a intervenção — um NNT de 10 é melhor que um de 50.

Qual teste estatístico devo usar na minha pesquisa?

Depende do tipo de dado. Para comparar médias de uma variável numérica entre dois grupos (dor, pressão, tempo de internação), use o teste t. Para comparar proporções ou taxas (infecção, adesão), use o teste de proporção. Para estimar uma média ou prevalência, use o intervalo de confiança.

Um resultado não significativo prova que o tratamento não funciona?

Não. Ausência de significância estatística não é prova de ausência de efeito. Na maioria das vezes indica que a amostra foi pequena demais para detectar a diferença. Avalie o intervalo de confiança e o tamanho da amostra antes de concluir que não há efeito algum.

Estatística para Enfermagem

Por que enfermagem precisa de estatística

Os conceitos que mais aparecem nos artigos

Como ler o valor-p sem cair em armadilhas

Intervalo de confiança: o número mais informativo

Medidas de efeito: RR, odds ratio, RRA e NNT

Tipos de estudo e nível de evidência

Qual teste usar em cada situação

Erros comuns ao interpretar estatística

Perguntas frequentes

Calculadoras relacionadas

Teste t de Student

Teste de Proporção

Intervalo de Confiança

Coloque a estatística a serviço do cuidado