Math ClubMath Club
v1 · padrão canônico

Lição 103 — Teste de hipótese: estrutura e lógica

Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

p-valor=P(TtobsH0)αrejeita H0p\text{-valor} = P(T \geq t_{\mathrm{obs}} \mid H_0) \leq \alpha \Rightarrow \text{rejeita } H_0

O p-valor mede a probabilidade de observar um resultado tão ou mais extremo que o obtido, assumindo que H0H_0 é verdadeira. Quando pαp \leq \alpha, os dados são incompatíveis com H0H_0 ao nível de significância escolhido, e rejeitamos H0H_0.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Os cinco elementos de um teste de hipótese

"A hipótese nula H0H_0 representa uma reivindicação de ceticismo. É o status quo que seria mantido a menos que haja evidência suficiente contra ela." — OpenIntro Statistics, §5.1

Erros e poder do teste

Definição formal do p-valor

"O p-valor mede quão consistentes são os dados com H0H_0. Um p-valor pequeno indica que os dados são incompatíveis com H0H_0 — não que H0H_0 é falsa com probabilidade 1p1-p." — OpenIntro Statistics, §5.1

Tipos de hipótese alternativa

Exemplos resolvidos

Exercise list

26 exercises · 6 with worked solution (25%)

Application 18Understanding 4Modeling 2Challenge 1Proof 1
  1. Ex. 103.1ApplicationAnswer key

    Formule as hipóteses H0H_0 e H1H_1 para o seguinte cenário: uma agência de defesa do consumidor quer verificar se o peso médio de uma embalagem de 500 g de farinha está conforme o declarado.

    Show solution
    H0:μ=500H_0: \mu = 500 g (peso conforme), H1:μ500H_1: \mu \neq 500 g (bilateral, pois o peso pode estar acima ou abaixo). Teste bilateral pois o fabricante se preocupa com sobre e subdosagem.
  2. Ex. 103.2Application

    Pesquisadores querem verificar se adolescentes brasileiros dormem menos do que as 8 horas recomendadas por noite. Formule H0H_0 e H1H_1.

    Show solution
    H0:μ8H_0: \mu \leq 8 horas (sono suficiente), H1:μ<8H_1: \mu < 8 horas (sono insuficiente). Teste unilateral à esquerda pois a preocupação é com sono abaixo do recomendado.
  3. Ex. 103.3Application

    H0:μ=50H_0: \mu = 50, H1:μ50H_1: \mu \neq 50. Dados: n=25n = 25, Xˉ=52\bar X = 52, σ=10\sigma = 10 (conhecido). Calcule a estatística z e o p-valor. Conclua para α=0,05\alpha = 0{,}05.

    Show solution
    Z=(Xˉμ0)/(σ/n)=(5250)/(10/25)=2/2=1,00Z = (\bar X - \mu_0)/(\sigma/\sqrt{n}) = (52 - 50)/(10/\sqrt{25}) = 2/2 = 1{,}00. p-valor bilateral: 2×P(Z>1,00)=2×0,1587=0,31742 \times P(Z > 1{,}00) = 2 \times 0{,}1587 = 0{,}3174. Como p=0,32>0,05p = 0{,}32 > 0{,}05, não rejeitamos H0H_0. Evidência insuficiente de que a média mudou.
  4. Ex. 103.4Application

    Um fabricante afirma que suas lâmpadas duram em média 1000 h. Uma amostra de n=64n = 64 lâmpadas dá Xˉ=985\bar X = 985 h com σ=50\sigma = 50 h (conhecido). Ao nível 5%, a vida útil média é menor do que o alegado?

    Show solution
    Z=2,40Z = -2{,}40. p-valor unilateral =0,0082<0,05= 0{,}0082 < 0{,}05. Rejeitamos H0H_0: evidência de que a vida útil média é inferior a 1000 h.
    Show step-by-step (with the why)
    1. Hipóteses: H0:μ=1000H_0: \mu = 1000 h, H1:μ<1000H_1: \mu < 1000 h (unilateral à esquerda).
    2. Estatística: Z=(9851000)/(50/64)=15/6,25=2,40Z = (985 - 1000)/(50/\sqrt{64}) = -15/6{,}25 = -2{,}40.
    3. p-valor unilateral: P(Z<2,40)=1Φ(2,40)=10,9918=0,0082P(Z < -2{,}40) = 1 - \Phi(2{,}40) = 1 - 0{,}9918 = 0{,}0082.
    4. Como p=0,0082<0,05p = 0{,}0082 < 0{,}05, rejeitamos H0H_0.
    5. Macete: Para testes unilaterais, o p-valor é metade do bilateral para o mesmo Z|Z|. Aqui bilateral seria 0,0164, unilateral 0,0082.
  5. Ex. 103.5Application

    Num julgamento criminal, H0H_0 é "o réu é inocente" e H1H_1 é "o réu é culpado". Descreva os Erros Tipo I e Tipo II neste contexto. Qual é considerado mais grave no sistema jurídico brasileiro? Por quê?

    Show solution
    Erro Tipo I: condenar inocente (sistema penal diz "culpado" quando é inocente). Erro Tipo II: absolver culpado (sistema diz "inocente" quando é culpado). Em sistema jurídico democrático, o Tipo I é mais grave pois "é melhor absolver 100 culpados do que condenar 1 inocente" — o nível de exigência ("além de dúvida razoável") é muito alto, equivalendo a α\alpha muito pequeno.
  6. Ex. 103.6Understanding

    Um teste resulta em p=0,03p = 0{,}03. Qual das afirmações abaixo está correta?

    Select the correct option
    Select an option first
    Show solution
    O p-valor é uma probabilidade sobre os dados (dado H0H_0), não sobre as hipóteses. A interpretação correta é sempre: "probabilidade de observar resultado tão ou mais extremo, supondo H0H_0 verdadeira".
  7. Ex. 103.7Understanding

    Um teste com n=10n = 10 resulta em p=0,12p = 0{,}12. O pesquisador conclui "o efeito não existe". O que pode estar errado?

    Select the correct option
    Select an option first
    Show solution
    Não rejeitar H0H_0 não significa que H0H_0 é verdadeira. Pode ser que o efeito exista mas a amostra seja pequena demais (poder insuficiente) para detectá-lo. A ausência de evidência não é evidência de ausência.
  8. Ex. 103.8Application

    Uma escola implementou uma nova metodologia. A nota média histórica é μ0=35\mu_0 = 35 pontos. Após intervenção, n=40n = 40 alunos tiveram Xˉ=37\bar X = 37 e σ=8\sigma = 8 (conhecido). Ao nível 5%, a nota melhorou?

    Show solution
    H0:μ=35H_0: \mu = 35 pontos, H1:μ>35H_1: \mu > 35 (unilateral à direita). Z=(3735)/(8/40)=2/(8/6,324)=2/1,265=1,581Z = (37 - 35)/(8/\sqrt{40}) = 2/(8/6{,}324) = 2/1{,}265 = 1{,}581. p-valor: P(Z>1,581)=10,943=0,057P(Z > 1{,}581) = 1 - 0{,}943 = 0{,}057. Como p=0,057>0,05p = 0{,}057 > 0{,}05, não rejeitamos H0H_0 ao nível 5%. Marginalmente não significativo.
  9. Ex. 103.9Application

    Uma UPA quer detectar redução de 5 min no tempo de atendimento (δ=5\delta = 5, σ=10\sigma = 10). Com α=0,05\alpha = 0{,}05 e poder de 90%, qual o nn mínimo?

    Show solution
    n=(1,960+1,282)2×100/2543n = (1{,}960 + 1{,}282)^2 \times 100/25 \approx 43 atendimentos.
    Show step-by-step (with the why)
    1. n=(zα/2+zβ)2σ2/δ2n = (z_{\alpha/2} + z_\beta)^2 \sigma^2/\delta^2.
    2. δ=5\delta = 5 min, σ=10\sigma = 10 min, z0,025=1,960z_{0{,}025} = 1{,}960, poder 90%: z0,10=1,282z_{0{,}10} = 1{,}282.
    3. n=(1,960+1,282)2×100/25=(3,242)2×4=10,51×4=42,04n = (1{,}960 + 1{,}282)^2 \times 100/25 = (3{,}242)^2 \times 4 = 10{,}51 \times 4 = 42{,}04.
    4. Arredonda: n=43n = 43 atendimentos.
    5. Macete: Aumentar o poder de 80% para 90% adiciona aproximadamente 30% ao tamanho da amostra (z0,10=1,282z_{0{,}10} = 1{,}282 vs z0,20=0,842z_{0{,}20} = 0{,}842).
  10. Ex. 103.10ApplicationAnswer key

    Uma moeda é jogada 100 vezes e sai cara 60 vezes. Ao nível 5%, a moeda é justa?

    Show solution
    H0:p=0,50H_0: p = 0{,}50 (moeda justa), H1:p0,50H_1: p \neq 0{,}50. Estatística: Z=(0,600,50)/0,50×0,50/100=0,10/0,05=2,00Z = (0{,}60 - 0{,}50)/\sqrt{0{,}50 \times 0{,}50/100} = 0{,}10/0{,}05 = 2{,}00. p-valor bilateral: 2×0,0228=0,0456<0,052 \times 0{,}0228 = 0{,}0456 < 0{,}05. Rejeitamos H0H_0: evidência de que a moeda é viciada.
  11. Ex. 103.11Application

    Um pesquisador muda o nível de significância de α=0,05\alpha = 0{,}05 para α=0,01\alpha = 0{,}01 mantendo nn fixo. Explique o efeito sobre o Erro Tipo II e o poder do teste.

    Show solution
    Para o mesmo nn e σ\sigma, diminuir α\alpha de 0,05 para 0,01 aumenta o valor crítico, reduzindo a região de rejeição. Isso aumenta β\beta (mais difícil rejeitar H0H_0 quando falsa) e reduz o poder. O trade-off fundamental: menos falsos positivos implica mais falsos negativos para o mesmo nn.
  12. Ex. 103.12ApplicationAnswer key

    O nível normal de glicemia em jejum é μ0=120\mu_0 = 120 mg/dL. Uma amostra de n=50n = 50 diabéticos dá Xˉ=128\bar X = 128 mg/dL com σ=20\sigma = 20 mg/dL. Ao nível 1%, a glicemia média está elevada?

    Show solution
    H0:μ=120H_0: \mu = 120 mg/dL, H1:μ>120H_1: \mu > 120 mg/dL. Z=(128120)/(20/50)=8/2,828=2,83Z = (128 - 120)/(20/\sqrt{50}) = 8/2{,}828 = 2{,}83. p-valor: P(Z>2,83)=10,9977=0,0023<0,01P(Z > 2{,}83) = 1 - 0{,}9977 = 0{,}0023 < 0{,}01. Rejeitamos H0H_0: evidência forte de que a glicemia média está acima do normal.
  13. Ex. 103.13Understanding

    Um resultado é "estatisticamente significativo a 5%". O que isso significa corretamente?

    Select the correct option
    Select an option first
    Show solution
    "Estatisticamente significativo" apenas significa que o p-valor caiu abaixo de α\alpha. Não implica relevância prática, causalidade, ou ausência de viés. Com nn muito grande, diferenças triviais tornam-se "significativas".
  14. Ex. 103.14Application

    Uma empresa quer detectar se o peso médio de seus produtos caiu de μ0=250\mu_0 = 250 g para μ1=245\mu_1 = 245 g, com σ=20\sigma = 20 g, α=0,05\alpha = 0{,}05 e poder de 80%. Qual o nn mínimo?

    Show solution
    H0:μ=250H_0: \mu = 250 g, H1:μ<250H_1: \mu < 250 g (unilateral). Com σ=20\sigma = 20 g e α=0,05\alpha = 0{,}05, valor crítico: Xˉc=2501,645×20/n\bar X_c = 250 - 1{,}645 \times 20/\sqrt{n}. Para detectar μ1=245\mu_1 = 245 g com poder 80%: n=(1,645+0,842)2×400/25=(2,487)2×16=6,185×1699n = (1{,}645 + 0{,}842)^2 \times 400/25 = (2{,}487)^2 \times 16 = 6{,}185 \times 16 \approx 99.
  15. Ex. 103.15Application

    Um estudo de genomics realiza 1000 testes simultâneos com α=0,05\alpha = 0{,}05. Todos os genes testados são nulos (sem efeito real). Quantos falsos positivos são esperados? Se 60 genes são "significativos", qual é a taxa de falsos descobertas estimada?

    Show solution
    Nível de significância 5%: rejeita se p0,05p \leq 0{,}05. Em 1000 testes, espera-se 1000×0,05=501000 \times 0{,}05 = 50 falsos positivos. Se apenas 60 são significativos e todos são verdadeiros positivos, estima-se FDR = 50/60 = 83%. A maioria dos "efeitos" descobertos pode ser falso.
  16. Ex. 103.16Application

    Uma moeda é jogada 800 vezes e sai cara 384 vezes. Ao nível 5%, a moeda é justa?

    Show solution
    Z=(0,480,50)/0,50×0,50/800=0,02/0,01768=1,131Z = (0{,}48 - 0{,}50)/\sqrt{0{,}50 \times 0{,}50/800} = -0{,}02/0{,}01768 = -1{,}131. p-valor bilateral: 2×P(Z<1,131)=2×0,129=0,2582 \times P(Z < -1{,}131) = 2 \times 0{,}129 = 0{,}258. Como p=0,258>0,05p = 0{,}258 > 0{,}05, não rejeitamos H0H_0. Os dados são consistentes com a moeda justa.
  17. Ex. 103.17ApplicationAnswer key

    Uma pesquisa com n=30n = 30 adolescentes registrou sono médio de Xˉ=7,5\bar X = 7{,}5 h com σ=1,5\sigma = 1{,}5 h (de estudos anteriores). Ao nível 5%, dormem menos de 8 horas?

    Show solution
    Z=1,825Z = -1{,}825, p-valor 0,034<0,05\approx 0{,}034 < 0{,}05. Rejeitamos H0H_0: evidência de que adolescentes dormem menos de 8 horas.
    Show step-by-step (with the why)
    1. Hipóteses: H0:μ=8H_0: \mu = 8 h, H1:μ<8H_1: \mu < 8 h.
    2. Estatística: Z=(7,58)/(1,5/30)=0,5/0,274=1,825Z = (7{,}5 - 8)/(1{,}5/\sqrt{30}) = -0{,}5/0{,}274 = -1{,}825.
    3. p-valor unilateral: P(Z<1,825)=1Φ(1,825)0,034P(Z < -1{,}825) = 1 - \Phi(1{,}825) \approx 0{,}034.
    4. Como p=0,034<0,05p = 0{,}034 < 0{,}05, rejeitamos H0H_0. Adolescentes dormem significativamente menos que 8 horas.
    5. Observação: p = 0,034 está próximo de 0,05. Um pesquisador responsável reportaria o valor exato, não apenas "significativo". Com α=0,01\alpha = 0{,}01 não rejeitaríamos.
  18. Ex. 103.18UnderstandingAnswer key

    Qual das afirmações sobre significância estatística é correta?

    Select the correct option
    Select an option first
    Show solution
    Com nn muito grande, diferenças minúsculas tornam-se "estatisticamente significativas". O p-valor depende do tamanho do efeito E do tamanho amostral. Com n=1.000.000n = 1.000.000, um efeito de 0,001 unidade pode ter p<0,001p < 0{,}001 mas ser clinicamente irrelevante.
  19. Ex. 103.19Modeling

    Um ensaio clínico testa 20 endpoints simultaneamente com α=0,05\alpha = 0{,}05. Qual é a probabilidade de pelo menos um falso positivo sem correção? Descreva como a correção de Bonferroni resolve o problema e discuta sua limitação.

    Show solution
    FWER com correção de Bonferroni: usa αcorrigido=0,05/20=0,0025\alpha_{\text{corrigido}} = 0{,}05/20 = 0{,}0025 por teste. Controla o FWER em 5%. Alternativa: FDR (Benjamini-Hochberg) é mais poderosa quando muitos efeitos são esperados. No ensaio clínico com 20 endpoints, Bonferroni pode ser excessivamente conservador se os endpoints são correlacionados — considera-se o método de Holm-Bonferroni como compromisso.
  20. Ex. 103.20Application

    A taxa histórica de aprovação no ENEM de uma escola é 30%. Após nova metodologia, 38 de 100 alunos passaram. Ao nível 5%, a taxa melhorou?

    Show solution
    H0:p=0,30H_0: p = 0{,}30 (proporção histórica de aprovação), H1:p>0,30H_1: p > 0{,}30. p^=38/100=0,38\hat p = 38/100 = 0{,}38. Z=(0,380,30)/0,30×0,70/100=0,08/0,0458=1,748Z = (0{,}38 - 0{,}30)/\sqrt{0{,}30 \times 0{,}70/100} = 0{,}08/0{,}0458 = 1{,}748. p-valor: P(Z>1,748)=0,040P(Z > 1{,}748) = 0{,}040. Como p=0,040<0,05p = 0{,}040 < 0{,}05, rejeitamos H0H_0: a nova metodologia parece melhorar a aprovação.
  21. Ex. 103.21Application

    Teste H0:μ=50H_0: \mu = 50 vs H1:μ50H_1: \mu \neq 50 com σ=10\sigma = 10 e Xˉ=51\bar X = 51. Calcule o p-valor para n=10n = 10 e n=10000n = 10000. O que isso revela sobre o p-valor e o tamanho do efeito?

    Show solution
    Com n=10n = 10: Z=(5150)/(10/10)=1/3,162=0,316Z = (51 - 50)/(10/\sqrt{10}) = 1/3{,}162 = 0{,}316. p=0,376p = 0{,}376. Não rejeita. Com n=10000n = 10000: Z=(5150)/(10/10000)=1/0,1=10,0Z = (51 - 50)/(10/\sqrt{10000}) = 1/0{,}1 = 10{,}0. p0p \approx 0. Rejeita com certeza. Diferença de 1 unidade: trivial com n=10n = 10, "altamente significativa" com n=10000n = 10000. Ilustra que o p-valor mede incompatibilidade com H0H_0, não tamanho do efeito.
  22. Ex. 103.22ApplicationAnswer key

    Pressão sistólica normal: μ0=120\mu_0 = 120 mmHg. Amostra de n=60n = 60 adultos sedentários: Xˉ=125\bar X = 125 mmHg, σ=15\sigma = 15 mmHg. Ao nível 1%, a pressão média é elevada?

    Show solution
    H0:μ=120H_0: \mu = 120 mmHg, H1:μ>120H_1: \mu > 120. Z=(125120)/(15/60)=5/1,936=2,583Z = (125 - 120)/(15/\sqrt{60}) = 5/1{,}936 = 2{,}583. p-valor: P(Z>2,583)=0,0049<0,01P(Z > 2{,}583) = 0{,}0049 < 0{,}01. Rejeitamos H0H_0: evidência forte de hipertensão média na amostra.
  23. Ex. 103.23Application

    Um estudo veterinário quer detectar que o peso médio de porcos de uma raça mudou de 125 kg para 120 kg (δ=5\delta = 5, σ=15\sigma = 15). Com α=0,05\alpha = 0{,}05 bilateral e poder de 80%, quantos animais são necessários?

    Show solution
    n=(1,960+0,842)2×225/2571n = (1{,}960 + 0{,}842)^2 \times 225/25 \approx 71 animais.
    Show step-by-step (with the why)
    1. Para detectar μ1=120\mu_1 = 120 kg vs μ0=125\mu_0 = 125 kg com σ=15\sigma = 15: δ=5\delta = 5.
    2. Poder 80%: zβ=0,842z_{\beta} = 0{,}842. Nível 5% bilateral: zα/2=1,960z_{\alpha/2} = 1{,}960.
    3. n=(1,960+0,842)2×225/25=7,851×9=70,7n = (1{,}960 + 0{,}842)^2 \times 225/25 = 7{,}851 \times 9 = 70{,}7. Arredonda: n=71n = 71.
    4. Macete: A fórmula n=(zα/2+zβ)2σ2/δ2n = (z_{\alpha/2} + z_\beta)^2 \sigma^2/\delta^2 mostra que o tamanho amostral escala quadraticamente com σ/δ\sigma/\delta (razão sinal-ruído inversa).
  24. Ex. 103.24Modeling

    O ENEM de uma escola tem Xˉ=52\bar X = 52 pontos contra μ0=50\mu_0 = 50 da média estadual, com s=10s = 10 e n=10000n = 10000 alunos. O resultado é "altamente significativo" (p<0,001p < 0{,}001). Calcule o tamanho de efeito de Cohen dd. A diferença de 2 pontos é educacionalmente relevante? Discuta.

    Show solution
    Tamanho de efeito de Cohen: d=Xˉμ0/s=5250/10=0,2d = |\bar X - \mu_0|/s = |52 - 50|/10 = 0{,}2 (efeito pequeno por convenção de Cohen). Com n=10000n = 10000, mesmo d=0,2d = 0{,}2 gera p<0,0001p < 0{,}0001. Em pesquisa educacional, uma diferença de 2 pontos numa escala de 100 pode não justificar mudança de política, apesar da "significância" estatística. Reportar IC e tamanho de efeito é essencial.
  25. Ex. 103.25Challenge

    Mostre que, sob H0H_0 verdadeira, o p-valor tem distribuição Uniforme(0,1)(0,1) para testes contínuos. Use esse resultado para verificar que P(rejeitar H0H0)=αP(\text{rejeitar } H_0 \mid H_0) = \alpha.

    Show solution
    Sob H0H_0 verdadeira, o p-valor tem distribuição Uniforme(0,1)\text{Uniforme}(0,1). Portanto P(p0,05H0)=0,05P(p \leq 0{,}05 \mid H_0) = 0{,}05 exatamente — o nível α\alpha controla a taxa de erro Tipo I de forma exata. Sob H1H_1, a distribuição do p-valor se concentra próxima de 0, com a fração abaixo de α\alpha igual ao poder 1β1-\beta.
  26. Ex. 103.26Proof

    Use o Lema de Neyman-Pearson para mostrar que o teste z unilateral (rejeitar se Xˉ>c\bar X > c) é o teste mais poderoso de nível α\alpha para H0:μ=μ0H_0: \mu = \mu_0 vs H1:μ=μ1>μ0H_1: \mu = \mu_1 > \mu_0 com dados normais e σ\sigma conhecido.

    Show solution
    A região de rejeição ótima pelo Lema de Neyman-Pearson para H0:μ=μ0H_0: \mu = \mu_0 vs H1:μ=μ1>μ0H_1: \mu = \mu_1 > \mu_0 com dados normais é: rejeita se Xˉ>c\bar X > c onde cc é determinado por P(Xˉ>cH0)=αP(\bar X > c \mid H_0) = \alpha. Isso equivale ao teste z unilateral. Demonstração: a razão de verossimilhança L(μ1)/L(μ0)=exp((μ1μ0)(Xˉ(μ0+μ1)/2)/σ2/n)L(\mu_1)/L(\mu_0) = \exp((\mu_1 - \mu_0)(\bar X - (\mu_0 + \mu_1)/2)/\sigma^2/n) é monotonicamente crescente em Xˉ\bar X para μ1>μ0\mu_1 > \mu_0.

Fontes

  • OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.1–5.3 (estrutura do teste, p-valor, poder, tamanho amostral).
  • Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 9 (hipóteses nula e alternativa, erros Tipo I e II, exemplos completos com z).
  • Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 10–11 (crise de replicabilidade, uso responsável do p-valor, FDR, tamanho de efeito).

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.