v1 · padrão canônico

Lição 103 — Teste de hipótese: estrutura e lógica

Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

p\text{-wartość} = P(T \geq t_{\mathrm{obs}} \mid H_0) \leq \alpha \Rightarrow \text{odrzucamy } H_0

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Pięć elementów testu hipotezy

"Hipoteza zerowa $H_0$ reprezentuje postulat sceptycyzmu. To status quo, który byłby utrzymywany, chyba że znaleziona zostanie wystarczająca przeciw niemu evidencja." — OpenIntro Statistics, §5.1

Błędy i moc testu

Definition· Błąd Typu I, Błąd Typu II i Moc

	$H_0$ prawdziwa	$H_0$ fałszywa
Odrzucamy $H_0$	Błąd Typu I ( $\alpha$ )	Decyzja prawidłowa (moc $= 1-\beta$ )
Nie odrzucamy $H_0$	Decyzja prawidłowa	Błąd Typu II ( $\beta$ )

Błąd Typu I (fałszywie dodatni): odrzucenie $H_0$ , gdy jest ona prawdziwa. Prawdopodobieństwo kontrolowane przez $\alpha$ .
Błąd Typu II (fałszywie ujemny): nieodrzucenie $H_0$ , gdy jest ona fałszywa. Prawdopodobieństwo $\beta$ (zależy od $H_1$ , $\sigma$ , $n$ ).
Moc $= 1 - \beta$ : prawdopodobieństwo wykrycia prawdziwego efektu.

Dla ustalonej wielkości próby zmniejszenie $\alpha$ zwiększa $\beta$ (kompromis). Aby zwiększyć moc bez poświęcenia $\alpha$ : zwiększyć $n$ .

Formalna definicja p-wartości

"P-wartość mierzy, jak zgodne są dane z $H_0$ . Mała p-wartość wskazuje, że dane są niezgodne z $H_0$ — a nie że $H_0$ jest fałszywa z prawdopodobieństwem $1-p$ ." — OpenIntro Statistics, §5.1

Rodzaje hipotezy alternatywnej

Exemplos resolvidos

Example— 103.1· Teste bilateral para media com z (basico)

Problema. Uma empresa alega que o peso médio de seus pacotes de café é $\mu_0 = 500$ g. Uma amostra de $n = 36$ pacotes dá $\bar X = 492$ g com $\sigma = 24$ g (conhecido). Ao nível $\alpha = 0{,}05$ , os dados contradizem a afirmação?

Estratégia. $H_0: \mu = 500$ , $H_1: \mu \neq 500$ (bilateral). Usar a estatística z pois $\sigma$ é conhecido.

Resolução.

$Z = \frac{\bar X - \mu_0}{\sigma/\sqrt{n}} = \frac{492 - 500}{24/\sqrt{36}} = \frac{-8}{4} = -2{,}00$

p-valor bilateral: $p = 2\,P(Z \leq -2{,}00) = 2 \times 0{,}0228 = 0{,}0456$ .

Como $p = 0{,}0456 < \alpha = 0{,}05$ , rejeitamos $H_0$ . Os dados contradizem a afirmação da empresa ao nível 5%.

Verificação. O valor crítico para bilateral com $\alpha = 0{,}05$ é $z_{0{,}025} = 1{,}960$ . Como $|{-}2{,}00| = 2{,}00 > 1{,}960$ , a rejeição pela estatística concorda com o p-valor. Consistente.

Fonte. OpenStax Statistics, §9.2, Exemplo 9.3 — CC-BY.

Example— 103.2· Identificacao de erros Tipo I e II (conceitual)

Problema. Um teste de qualidade verifica se um lote de medicamentos tem concentração média de princípio ativo de 50 mg ( $H_0$ ). Ao nível 5%, o lote é aprovado ou reprovado. (a) O que constitui um Erro Tipo I neste contexto? (b) E um Erro Tipo II? (c) Qual é mais grave?

Estratégia. Mapear as definições formais ao contexto específico.

Resolução.

(a) Erro Tipo I: rejeitar $H_0$ quando $\mu = 50$ mg — ou seja, reprovar um lote que na verdade está conforme. Consequência: desperdício de produto bom, custo de re-trabalho.

(b) Erro Tipo II: não rejeitar $H_0$ quando $\mu \neq 50$ mg — ou seja, aprovar um lote fora de especificação. Consequência: medicamento subdosado ou superdosado chega ao paciente.

(c) Na maioria dos contextos farmacêuticos, o Erro Tipo II é mais grave: um medicamento fora de especificação pode causar dano ao paciente. Por isso, ensaios clínicos usam $\alpha$ pequeno mas exigem poder alto (baixo $\beta$ ), aumentando $n$ .

Verificação. A assimetria entre os erros justifica calibrar $\alpha$ e $\beta$ de forma diferente por contexto — medicina usa $\alpha = 0{,}01$ e poder de 80-90%.

Fonte. OpenIntro Statistics, §5.2, Exemplo 5.4 — CC-BY-SA.

Example— 103.3· Calculo de poder e tamanho amostral (intermediario)

Problema. Um pesquisador quer detectar que o tempo médio de atendimento de uma UPA mudou de $\mu_0 = 30$ min para $\mu_1 = 27$ min ( $\delta = 3$ min), com $\sigma = 10$ min, $\alpha = 0{,}05$ (bilateral) e poder de 80%. Qual o $n$ mínimo?

Estratégia. Aplicar a fórmula de tamanho amostral para poder: $n = (z_{\alpha/2} + z_\beta)^2 \sigma^2/\delta^2$ .

Resolução.

$z_{0{,}025} = 1{,}960$ , $z_{0{,}20} = 0{,}842$ (poder de 80% $\Rightarrow \beta = 0{,}20$ ).

$n = \frac{(1{,}960 + 0{,}842)^2 \times 10^2}{3^2} = \frac{(2{,}802)^2 \times 100}{9} = \frac{7{,}851 \times 100}{9} \approx 87{,}2$

Arredonda: $n = 88$ atendimentos.

Verificação. Se $\delta = 6$ min (efeito dobrado): $n = 7{,}851 \times 100/36 \approx 22$ . Efeito maior exige amostra menor — coerente.

Fonte. OpenIntro Statistics, §5.3, Exemplo 5.7 — CC-BY-SA.

Example— 103.4· Teste unilateral — medicamento (intermediario)

Problema. Um novo anticoagulante afirma reduzir o tempo de coagulação médio de $\mu_0 = 12$ s para abaixo disso. Uma amostra de $n = 20$ pacientes dá $\bar X = 11{,}2$ s e $s = 2$ s. Ao nível $\alpha = 0{,}05$ , o medicamento é eficaz?

Estratégia. $H_0: \mu \geq 12$ , $H_1: \mu < 12$ (unilateral à esquerda). Estatística t com 19 graus de liberdade.

Resolução.

$T = \frac{11{,}2 - 12}{2/\sqrt{20}} = \frac{-0{,}8}{0{,}4472} = -1{,}789$

Para $H_1: \mu < 12$ , p-valor $= P(t_{19} \leq -1{,}789)$ . Da tabela t: $P(t_{19} \leq -1{,}729) = 0{,}05$ e $P(t_{19} \leq -2{,}093) = 0{,}025$ . Logo $p \approx 0{,}045$ .

Como $p = 0{,}045 < 0{,}05$ , rejeitamos $H_0$ . Evidência de que o medicamento reduz o tempo de coagulação.

Verificação. Valor crítico unilateral: $t_{0{,}05,\,19} = -1{,}729$ . Como $T = -1{,}789 < -1{,}729$ , a rejeição pela estatística concorda. Consistente.

Fonte. OpenStax Statistics, §9.4, Exemplo 9.8 — CC-BY.

Example— 103.5· Interpretacao errada do p-valor e correcao (avancado)

Problema. Um pesquisador obtém $p = 0{,}03$ num teste de $H_0: \mu = 0$ e afirma: "Há 97% de probabilidade de que o efeito seja real." Identifique o erro e formule a interpretação correta.

Estratégia. Aplicar a definição formal de p-valor e distinguir probabilidades sobre os dados das probabilidades sobre hipóteses.

Resolução.

A afirmação é incorreta por dois motivos:

O p-valor é a probabilidade sobre os dados (dado $H_0$ ), não sobre as hipóteses. $P(\text{dados} \mid H_0) \neq P(H_0 \mid \text{dados})$ — confundir os dois é a falácia da transposição do condicional (base rate neglect).
$1 - p\text{-valor} = 0{,}97$ não tem interpretação de probabilidade de $H_1$ . Para obter $P(H_1 \mid \text{dados})$ , precisaria do Teorema de Bayes com uma prior sobre as hipóteses.

Interpretação correta: "Se $H_0$ fosse verdadeira, haveria apenas 3% de probabilidade de observar um efeito tão grande (ou maior) quanto o observado. Os dados são estatisticamente incompatíveis com $H_0$ ao nível de 5%."

Verificação. Dois estudos independentes com $p = 0{,}04$ cada um não implicam um terceiro estudo com $p = 0{,}04$ — a combinação de evidências é feita por meta-análise, não por multiplicação de p-valores.

Fonte. OpenIntro Statistics, §5.1, Seção "Interpreting p-values" — CC-BY-SA.

Exercise list

26 exercises · 6 with worked solution (25%)

Application 11Understanding 4Modeling 2Challenge 1Proof 1 7

Ex. 103.1ApplicationAnswer key
Sformułuj hipotezy $H_0$ i $H_1$ dla następującego scenariusza: agencja ochrony konsumenta chce sprawdzić, czy średnia waga opakowania mąki o deklarowanej masie 500 g jest zgodna z normą.
Solve online
Ex. 103.2Application
Badacze chcą sprawdzić, czy brazylijscy nastolatki śpią mniej niż zalecane 8 godzin na noc. Sformułuj $H_0$ i $H_1$ .
Solve online
Ex. 103.3Application
$H_0: \mu = 50$ , $H_1: \mu \neq 50$ . Dane: $n = 25$ , $\bar X = 52$ , $\sigma = 10$ (znane). Oblicz statystykę z i p-wartość. Wnioskuj dla $\alpha = 0{,}05$ .
Solve online
Ex. 103.4Application
Producent twierdzi, że jego żarówki trwają średnio 1000 h. Próba $n = 64$ żarówek daje $\bar X = 985$ h z $\sigma = 50$ h (znane). Na poziomie 5%, średnia żywotność jest mniejsza niż twierdzenie?
Solve online
Ex. 103.5Application
W procesie karnym $H_0$ to „oskarżony jest niewinny" a $H_1$ to „oskarżony jest winny". Opisz Błędy Typu I i II w tym kontekście. Który jest uważany za bardziej poważny w brazylijskim systemie prawnym? Dlaczego?
Solve online
Ex. 103.6Understanding
Test daje $p = 0{,}03$ . Które ze stwierdzenia poniżej jest prawidłowe?
Solve online
Ex. 103.7Understanding
Test z $n = 10$ daje $p = 0{,}12$ . Badacz wyciąga wniosek „efekt nie istnieje". Co może być nie tak?
Solve online
Ex. 103.8Application
Szkoła wdrożyła nową metodologię. Historyczna średnia ocen to $\mu_0 = 35$ punktów. Po interwencji, $n = 40$ uczniów osiągnęło $\bar X = 37$ z $\sigma = 8$ (znane). Na poziomie 5%, oceny się poprawiły?
Solve online
Ex. 103.9Application
UPA chce wykryć zmniejszenie 5 min w czasie konsultacji ( $\delta = 5$ , $\sigma = 10$ ). Z $\alpha = 0{,}05$ i mocą 90%, jaka jest minimalna $n$ ?
Solve online
Ex. 103.10ApplicationAnswer key
Moneta jest rzucana 100 razy i wypadł orzeł 60 razy. Na poziomie 5%, czy moneta jest uczciwa?
Solve online
Ex. 103.11Application
Badacz zmienia poziom istotności z $\alpha = 0{,}05$ na $\alpha = 0{,}01$ , utrzymując $n$ stałe. Wyjaśnij wpływ na Błąd Typu II i moc testu.
Solve online
Ex. 103.12Answer key
Normalna glikemia na czczo to $\mu_0 = 120$ mg/dL. Próba $n = 50$ diabetyków daje $\bar X = 128$ mg/dL z $\sigma = 20$ mg/dL. Na poziomie 1%, czy średnia glikemia jest podwyższona?
Solve online
Ex. 103.13Understanding
Wynik jest „statystycznie istotny na poziomie 5%". Co to prawidłowo oznacza?
Solve online
Ex. 103.14Application
Firma chce wykryć, czy średnia waga jej produktów spadła z $\mu_0 = 250$ g do $\mu_1 = 245$ g, z $\sigma = 20$ g, $\alpha = 0{,}05$ i mocą 80%. Jaka jest minimalna $n$ ?
Solve online
Ex. 103.15Application
Badanie genomiki przeprowadza 1000 testów jednocześnie z $\alpha = 0{,}05$ . Wszystkie testowane geny są zerowe (bez rzeczywistego efektu). Ile fałszywych pozytywów jest oczekiwanych? Jeśli 60 genów jest „istotnych", jaka jest szacunkowa stopa fałszywych odkryć?
Solve online
Ex. 103.16
Moneta jest rzucana 800 razy i wypadł orzeł 384 razy. Na poziomie 5%, czy moneta jest uczciwa?
Solve online
Ex. 103.17Answer key
Badanie z $n = 30$ nastolatkami zarejestrował średni sen $\bar X = 7{,}5$ h z $\sigma = 1{,}5$ h (z wcześniejszych badań). Na poziomie 5%, czy śpią mniej niż 8 godzin?
Solve online
Ex. 103.18UnderstandingAnswer key
Które ze stwierdzeń o istotności statystycznej jest prawidłowe?
Solve online
Ex. 103.19Modeling
Badanie kliniczne testuje 20 punktów końcowych jednocześnie z $\alpha = 0{,}05$ . Jakie jest prawdopodobieństwo co najmniej jednego fałszywego pozytywu bez korekcji? Opisz, jak korekcja Bonferroni rozwiązuje problem i omów jej ograniczenie.
Solve online
Ex. 103.20
Historyczna stopa zatwierdzenia ENEM w szkole to 30%. Po nowej metodologii, 38 ze 100 uczniów przeszło. Na poziomie 5%, czy stopa się poprawiła?
Solve online
Ex. 103.21
Testuj $H_0: \mu = 50$ vs $H_1: \mu \neq 50$ z $\sigma = 10$ i $\bar X = 51$ . Oblicz p-wartość dla $n = 10$ i $n = 10000$ . Co to ujawnia o p-wartości i wielkości efektu?
Solve online
Ex. 103.22Answer key
Normalne ciśnienie skurczowe: $\mu_0 = 120$ mmHg. Próba $n = 60$ dorosłych малoaktywnych: $\bar X = 125$ mmHg, $\sigma = 15$ mmHg. Na poziomie 1%, czy średnie ciśnienie jest podwyższone?
Solve online
Ex. 103.23
Badanie weterynarii chce wykryć, że średnia waga świń rasy zmieniła się z 125 kg na 120 kg ( $\delta = 5$ , $\sigma = 15$ ). Z $\alpha = 0{,}05$ dwustronnym i mocą 80%, ile zwierząt jest potrzebnych?
Solve online
Ex. 103.24Modeling
ENEM szkoły ma $\bar X = 52$ punktów wobec $\mu_0 = 50$ średniej stanowej, z $s = 10$ i $n = 10000$ uczniów. Wynik jest „wysoce istotny" ( $p < 0{,}001$ ). Oblicz znormalizowaną wielkość efektu Cohena $d$ . Czy różnica 2 punktów jest edukacyjnie znacząca? Omów.
Solve online
Ex. 103.25Challenge
Pokaż, że pod warunkiem, że $H_0$ jest prawdziwa, p-wartość ma rozkład Jednostajny $(0,1)$ dla testów ciągłych. Użyj tego wyniku, aby sprawdzić, że $P(\text{odrzucić } H_0 \mid H_0) = \alpha$ .
Solve online
Ex. 103.26Proof
Użyj Lematu Neymana-Pearsona, aby pokazać, że test z jednostronny (odrzucić, jeśli $\bar X > c$ ) jest testem o największej mocy poziomu $\alpha$ dla $H_0: \mu = \mu_0$ vs $H_1: \mu = \mu_1 > \mu_0$ z danymi normalnymi i znanym $\sigma$ .
Solve online

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.1–5.3 (estrutura do teste, p-valor, poder, tamanho amostral).
Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 9 (hipóteses nula e alternativa, erros Tipo I e II, exemplos completos com z).
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 10–11 (crise de replicabilidade, uso responsável do p-valor, FDR, tamanho de efeito).