Lição 103 — Teste de hipótese: estrutura e lógica
Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense
O p-valor mede a probabilidade de observar um resultado tão ou mais extremo que o obtido, assumindo que é verdadeira. Quando , os dados são incompatíveis com ao nível de significância escolhido, e rejeitamos .
Rigorous notation, full derivation, hypotheses
Definição rigorosa
Os cinco elementos de um teste de hipótese
"A hipótese nula representa uma reivindicação de ceticismo. É o status quo que seria mantido a menos que haja evidência suficiente contra ela." — OpenIntro Statistics, §5.1
Erros e poder do teste
Definição formal do p-valor
"O p-valor mede quão consistentes são os dados com . Um p-valor pequeno indica que os dados são incompatíveis com — não que é falsa com probabilidade ." — OpenIntro Statistics, §5.1
Tipos de hipótese alternativa
Exemplos resolvidos
Exercise list
26 exercises · 6 with worked solution (25%)
- Ex. 103.1ApplicationAnswer key
Formule as hipóteses e para o seguinte cenário: uma agência de defesa do consumidor quer verificar se o peso médio de uma embalagem de 500 g de farinha está conforme o declarado.
Show solution
g (peso conforme), g (bilateral, pois o peso pode estar acima ou abaixo). Teste bilateral pois o fabricante se preocupa com sobre e subdosagem. - Ex. 103.2Application
Pesquisadores querem verificar se adolescentes brasileiros dormem menos do que as 8 horas recomendadas por noite. Formule e .
Show solution
horas (sono suficiente), horas (sono insuficiente). Teste unilateral à esquerda pois a preocupação é com sono abaixo do recomendado. - Ex. 103.3Application
, . Dados: , , (conhecido). Calcule a estatística z e o p-valor. Conclua para .
Show solution
. p-valor bilateral: . Como , não rejeitamos . Evidência insuficiente de que a média mudou. - Ex. 103.4Application
Um fabricante afirma que suas lâmpadas duram em média 1000 h. Uma amostra de lâmpadas dá h com h (conhecido). Ao nível 5%, a vida útil média é menor do que o alegado?
Show solution
. p-valor unilateral . Rejeitamos : evidência de que a vida útil média é inferior a 1000 h.Show step-by-step (with the why)
- Hipóteses: h, h (unilateral à esquerda).
- Estatística: .
- p-valor unilateral: .
- Como , rejeitamos .
- Macete: Para testes unilaterais, o p-valor é metade do bilateral para o mesmo . Aqui bilateral seria 0,0164, unilateral 0,0082.
- Ex. 103.5Application
Num julgamento criminal, é "o réu é inocente" e é "o réu é culpado". Descreva os Erros Tipo I e Tipo II neste contexto. Qual é considerado mais grave no sistema jurídico brasileiro? Por quê?
Show solution
Erro Tipo I: condenar inocente (sistema penal diz "culpado" quando é inocente). Erro Tipo II: absolver culpado (sistema diz "inocente" quando é culpado). Em sistema jurídico democrático, o Tipo I é mais grave pois "é melhor absolver 100 culpados do que condenar 1 inocente" — o nível de exigência ("além de dúvida razoável") é muito alto, equivalendo a muito pequeno. - Ex. 103.6Understanding
Um teste resulta em . Qual das afirmações abaixo está correta?
Show solution
O p-valor é uma probabilidade sobre os dados (dado ), não sobre as hipóteses. A interpretação correta é sempre: "probabilidade de observar resultado tão ou mais extremo, supondo verdadeira". - Ex. 103.7Understanding
Um teste com resulta em . O pesquisador conclui "o efeito não existe". O que pode estar errado?
Show solution
Não rejeitar não significa que é verdadeira. Pode ser que o efeito exista mas a amostra seja pequena demais (poder insuficiente) para detectá-lo. A ausência de evidência não é evidência de ausência. - Ex. 103.8Application
Uma escola implementou uma nova metodologia. A nota média histórica é pontos. Após intervenção, alunos tiveram e (conhecido). Ao nível 5%, a nota melhorou?
Show solution
pontos, (unilateral à direita). . p-valor: . Como , não rejeitamos ao nível 5%. Marginalmente não significativo. - Ex. 103.9Application
Uma UPA quer detectar redução de 5 min no tempo de atendimento (, ). Com e poder de 90%, qual o mínimo?
Show solution
atendimentos.Show step-by-step (with the why)
- .
- min, min, , poder 90%: .
- .
- Arredonda: atendimentos.
- Macete: Aumentar o poder de 80% para 90% adiciona aproximadamente 30% ao tamanho da amostra ( vs ).
- Ex. 103.10ApplicationAnswer key
Uma moeda é jogada 100 vezes e sai cara 60 vezes. Ao nível 5%, a moeda é justa?
Show solution
(moeda justa), . Estatística: . p-valor bilateral: . Rejeitamos : evidência de que a moeda é viciada. - Ex. 103.11Application
Um pesquisador muda o nível de significância de para mantendo fixo. Explique o efeito sobre o Erro Tipo II e o poder do teste.
Show solution
Para o mesmo e , diminuir de 0,05 para 0,01 aumenta o valor crítico, reduzindo a região de rejeição. Isso aumenta (mais difícil rejeitar quando falsa) e reduz o poder. O trade-off fundamental: menos falsos positivos implica mais falsos negativos para o mesmo . - Ex. 103.12ApplicationAnswer key
O nível normal de glicemia em jejum é mg/dL. Uma amostra de diabéticos dá mg/dL com mg/dL. Ao nível 1%, a glicemia média está elevada?
Show solution
mg/dL, mg/dL. . p-valor: . Rejeitamos : evidência forte de que a glicemia média está acima do normal. - Ex. 103.13Understanding
Um resultado é "estatisticamente significativo a 5%". O que isso significa corretamente?
Show solution
"Estatisticamente significativo" apenas significa que o p-valor caiu abaixo de . Não implica relevância prática, causalidade, ou ausência de viés. Com muito grande, diferenças triviais tornam-se "significativas". - Ex. 103.14Application
Uma empresa quer detectar se o peso médio de seus produtos caiu de g para g, com g, e poder de 80%. Qual o mínimo?
Show solution
g, g (unilateral). Com g e , valor crítico: . Para detectar g com poder 80%: . - Ex. 103.15Application
Um estudo de genomics realiza 1000 testes simultâneos com . Todos os genes testados são nulos (sem efeito real). Quantos falsos positivos são esperados? Se 60 genes são "significativos", qual é a taxa de falsos descobertas estimada?
Show solution
Nível de significância 5%: rejeita se . Em 1000 testes, espera-se falsos positivos. Se apenas 60 são significativos e todos são verdadeiros positivos, estima-se FDR = 50/60 = 83%. A maioria dos "efeitos" descobertos pode ser falso. - Ex. 103.16Application
Uma moeda é jogada 800 vezes e sai cara 384 vezes. Ao nível 5%, a moeda é justa?
Show solution
. p-valor bilateral: . Como , não rejeitamos . Os dados são consistentes com a moeda justa. - Ex. 103.17ApplicationAnswer key
Uma pesquisa com adolescentes registrou sono médio de h com h (de estudos anteriores). Ao nível 5%, dormem menos de 8 horas?
Show solution
, p-valor . Rejeitamos : evidência de que adolescentes dormem menos de 8 horas.Show step-by-step (with the why)
- Hipóteses: h, h.
- Estatística: .
- p-valor unilateral: .
- Como , rejeitamos . Adolescentes dormem significativamente menos que 8 horas.
- Observação: p = 0,034 está próximo de 0,05. Um pesquisador responsável reportaria o valor exato, não apenas "significativo". Com não rejeitaríamos.
- Ex. 103.18UnderstandingAnswer key
Qual das afirmações sobre significância estatística é correta?
Show solution
Com muito grande, diferenças minúsculas tornam-se "estatisticamente significativas". O p-valor depende do tamanho do efeito E do tamanho amostral. Com , um efeito de 0,001 unidade pode ter mas ser clinicamente irrelevante. - Ex. 103.19Modeling
Um ensaio clínico testa 20 endpoints simultaneamente com . Qual é a probabilidade de pelo menos um falso positivo sem correção? Descreva como a correção de Bonferroni resolve o problema e discuta sua limitação.
Show solution
FWER com correção de Bonferroni: usa por teste. Controla o FWER em 5%. Alternativa: FDR (Benjamini-Hochberg) é mais poderosa quando muitos efeitos são esperados. No ensaio clínico com 20 endpoints, Bonferroni pode ser excessivamente conservador se os endpoints são correlacionados — considera-se o método de Holm-Bonferroni como compromisso. - Ex. 103.20Application
A taxa histórica de aprovação no ENEM de uma escola é 30%. Após nova metodologia, 38 de 100 alunos passaram. Ao nível 5%, a taxa melhorou?
Show solution
(proporção histórica de aprovação), . . . p-valor: . Como , rejeitamos : a nova metodologia parece melhorar a aprovação. - Ex. 103.21Application
Teste vs com e . Calcule o p-valor para e . O que isso revela sobre o p-valor e o tamanho do efeito?
Show solution
Com : . . Não rejeita. Com : . . Rejeita com certeza. Diferença de 1 unidade: trivial com , "altamente significativa" com . Ilustra que o p-valor mede incompatibilidade com , não tamanho do efeito. - Ex. 103.22ApplicationAnswer key
Pressão sistólica normal: mmHg. Amostra de adultos sedentários: mmHg, mmHg. Ao nível 1%, a pressão média é elevada?
Show solution
mmHg, . . p-valor: . Rejeitamos : evidência forte de hipertensão média na amostra. - Ex. 103.23Application
Um estudo veterinário quer detectar que o peso médio de porcos de uma raça mudou de 125 kg para 120 kg (, ). Com bilateral e poder de 80%, quantos animais são necessários?
Show solution
animais.Show step-by-step (with the why)
- Para detectar kg vs kg com : .
- Poder 80%: . Nível 5% bilateral: .
- . Arredonda: .
- Macete: A fórmula mostra que o tamanho amostral escala quadraticamente com (razão sinal-ruído inversa).
- Ex. 103.24Modeling
O ENEM de uma escola tem pontos contra da média estadual, com e alunos. O resultado é "altamente significativo" (). Calcule o tamanho de efeito de Cohen . A diferença de 2 pontos é educacionalmente relevante? Discuta.
Show solution
Tamanho de efeito de Cohen: (efeito pequeno por convenção de Cohen). Com , mesmo gera . Em pesquisa educacional, uma diferença de 2 pontos numa escala de 100 pode não justificar mudança de política, apesar da "significância" estatística. Reportar IC e tamanho de efeito é essencial. - Ex. 103.25Challenge
Mostre que, sob verdadeira, o p-valor tem distribuição Uniforme para testes contínuos. Use esse resultado para verificar que .
Show solution
Sob verdadeira, o p-valor tem distribuição . Portanto exatamente — o nível controla a taxa de erro Tipo I de forma exata. Sob , a distribuição do p-valor se concentra próxima de 0, com a fração abaixo de igual ao poder . - Ex. 103.26Proof
Use o Lema de Neyman-Pearson para mostrar que o teste z unilateral (rejeitar se ) é o teste mais poderoso de nível para vs com dados normais e conhecido.
Show solution
A região de rejeição ótima pelo Lema de Neyman-Pearson para vs com dados normais é: rejeita se onde é determinado por . Isso equivale ao teste z unilateral. Demonstração: a razão de verossimilhança é monotonicamente crescente em para .
Fontes
- OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.1–5.3 (estrutura do teste, p-valor, poder, tamanho amostral).
- Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 9 (hipóteses nula e alternativa, erros Tipo I e II, exemplos completos com z).
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 10–11 (crise de replicabilidade, uso responsável do p-valor, FDR, tamanho de efeito).