v1 · padrão canônico

Lição 103 — Teste de hipótese: estrutura e lógica

Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

p\text{-valor} = P(T \geq t_{\mathrm{obs}} \mid H_0) \leq \alpha \Rightarrow \text{rejeita } H_0

O p-valor mede a probabilidade de observar um resultado tão ou mais extremo que o obtido, assumindo que $H_0$ é verdadeira. Quando $p \leq \alpha$ , os dados são incompatíveis com $H_0$ ao nível de significância escolhido, e rejeitamos $H_0$ .

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Os cinco elementos de um teste de hipótese

"A hipótese nula $H_0$ representa uma reivindicação de ceticismo. É o status quo que seria mantido a menos que haja evidência suficiente contra ela." — OpenIntro Statistics, §5.1

Erros e poder do teste

Definition· Erro Tipo I, Erro Tipo II e Poder

	$H_0$ verdadeira	$H_0$ falsa
Rejeita $H_0$	Erro Tipo I ( $\alpha$ )	Decisão correta (poder $= 1-\beta$ )
Não rejeita $H_0$	Decisão correta	Erro Tipo II ( $\beta$ )

Erro Tipo I (falso positivo): rejeitar $H_0$ quando ela é verdadeira. Probabilidade controlada por $\alpha$ .
Erro Tipo II (falso negativo): não rejeitar $H_0$ quando ela é falsa. Probabilidade $\beta$ (depende de $H_1$ , $\sigma$ , $n$ ).
Poder $= 1 - \beta$ : probabilidade de detectar o efeito real.

Para tamanho amostral fixo, diminuir $\alpha$ aumenta $\beta$ (trade-off). Para aumentar o poder sem sacrificar $\alpha$ : aumentar $n$ .

Definição formal do p-valor

"O p-valor mede quão consistentes são os dados com $H_0$ . Um p-valor pequeno indica que os dados são incompatíveis com $H_0$ — não que $H_0$ é falsa com probabilidade $1-p$ ." — OpenIntro Statistics, §5.1

Tipos de hipótese alternativa

Exemplos resolvidos

Example— 103.1· Teste bilateral para media com z (basico)

Problema. Uma empresa alega que o peso médio de seus pacotes de café é $\mu_0 = 500$ g. Uma amostra de $n = 36$ pacotes dá $\bar X = 492$ g com $\sigma = 24$ g (conhecido). Ao nível $\alpha = 0{,}05$ , os dados contradizem a afirmação?

Estratégia. $H_0: \mu = 500$ , $H_1: \mu \neq 500$ (bilateral). Usar a estatística z pois $\sigma$ é conhecido.

Resolução.

$Z = \frac{\bar X - \mu_0}{\sigma/\sqrt{n}} = \frac{492 - 500}{24/\sqrt{36}} = \frac{-8}{4} = -2{,}00$

p-valor bilateral: $p = 2\,P(Z \leq -2{,}00) = 2 \times 0{,}0228 = 0{,}0456$ .

Como $p = 0{,}0456 < \alpha = 0{,}05$ , rejeitamos $H_0$ . Os dados contradizem a afirmação da empresa ao nível 5%.

Verificação. O valor crítico para bilateral com $\alpha = 0{,}05$ é $z_{0{,}025} = 1{,}960$ . Como $|{-}2{,}00| = 2{,}00 > 1{,}960$ , a rejeição pela estatística concorda com o p-valor. Consistente.

Fonte. OpenStax Statistics, §9.2, Exemplo 9.3 — CC-BY.

Example— 103.2· Identificacao de erros Tipo I e II (conceitual)

Problema. Um teste de qualidade verifica se um lote de medicamentos tem concentração média de princípio ativo de 50 mg ( $H_0$ ). Ao nível 5%, o lote é aprovado ou reprovado. (a) O que constitui um Erro Tipo I neste contexto? (b) E um Erro Tipo II? (c) Qual é mais grave?

Estratégia. Mapear as definições formais ao contexto específico.

Resolução.

(a) Erro Tipo I: rejeitar $H_0$ quando $\mu = 50$ mg — ou seja, reprovar um lote que na verdade está conforme. Consequência: desperdício de produto bom, custo de re-trabalho.

(b) Erro Tipo II: não rejeitar $H_0$ quando $\mu \neq 50$ mg — ou seja, aprovar um lote fora de especificação. Consequência: medicamento subdosado ou superdosado chega ao paciente.

(c) Na maioria dos contextos farmacêuticos, o Erro Tipo II é mais grave: um medicamento fora de especificação pode causar dano ao paciente. Por isso, ensaios clínicos usam $\alpha$ pequeno mas exigem poder alto (baixo $\beta$ ), aumentando $n$ .

Verificação. A assimetria entre os erros justifica calibrar $\alpha$ e $\beta$ de forma diferente por contexto — medicina usa $\alpha = 0{,}01$ e poder de 80-90%.

Fonte. OpenIntro Statistics, §5.2, Exemplo 5.4 — CC-BY-SA.

Example— 103.3· Calculo de poder e tamanho amostral (intermediario)

Problema. Um pesquisador quer detectar que o tempo médio de atendimento de uma UPA mudou de $\mu_0 = 30$ min para $\mu_1 = 27$ min ( $\delta = 3$ min), com $\sigma = 10$ min, $\alpha = 0{,}05$ (bilateral) e poder de 80%. Qual o $n$ mínimo?

Estratégia. Aplicar a fórmula de tamanho amostral para poder: $n = (z_{\alpha/2} + z_\beta)^2 \sigma^2/\delta^2$ .

Resolução.

$z_{0{,}025} = 1{,}960$ , $z_{0{,}20} = 0{,}842$ (poder de 80% $\Rightarrow \beta = 0{,}20$ ).

$n = \frac{(1{,}960 + 0{,}842)^2 \times 10^2}{3^2} = \frac{(2{,}802)^2 \times 100}{9} = \frac{7{,}851 \times 100}{9} \approx 87{,}2$

Arredonda: $n = 88$ atendimentos.

Verificação. Se $\delta = 6$ min (efeito dobrado): $n = 7{,}851 \times 100/36 \approx 22$ . Efeito maior exige amostra menor — coerente.

Fonte. OpenIntro Statistics, §5.3, Exemplo 5.7 — CC-BY-SA.

Example— 103.4· Teste unilateral — medicamento (intermediario)

Problema. Um novo anticoagulante afirma reduzir o tempo de coagulação médio de $\mu_0 = 12$ s para abaixo disso. Uma amostra de $n = 20$ pacientes dá $\bar X = 11{,}2$ s e $s = 2$ s. Ao nível $\alpha = 0{,}05$ , o medicamento é eficaz?

Estratégia. $H_0: \mu \geq 12$ , $H_1: \mu < 12$ (unilateral à esquerda). Estatística t com 19 graus de liberdade.

Resolução.

$T = \frac{11{,}2 - 12}{2/\sqrt{20}} = \frac{-0{,}8}{0{,}4472} = -1{,}789$

Para $H_1: \mu < 12$ , p-valor $= P(t_{19} \leq -1{,}789)$ . Da tabela t: $P(t_{19} \leq -1{,}729) = 0{,}05$ e $P(t_{19} \leq -2{,}093) = 0{,}025$ . Logo $p \approx 0{,}045$ .

Como $p = 0{,}045 < 0{,}05$ , rejeitamos $H_0$ . Evidência de que o medicamento reduz o tempo de coagulação.

Verificação. Valor crítico unilateral: $t_{0{,}05,\,19} = -1{,}729$ . Como $T = -1{,}789 < -1{,}729$ , a rejeição pela estatística concorda. Consistente.

Fonte. OpenStax Statistics, §9.4, Exemplo 9.8 — CC-BY.

Example— 103.5· Interpretacao errada do p-valor e correcao (avancado)

Problema. Um pesquisador obtém $p = 0{,}03$ num teste de $H_0: \mu = 0$ e afirma: "Há 97% de probabilidade de que o efeito seja real." Identifique o erro e formule a interpretação correta.

Estratégia. Aplicar a definição formal de p-valor e distinguir probabilidades sobre os dados das probabilidades sobre hipóteses.

Resolução.

A afirmação é incorreta por dois motivos:

O p-valor é a probabilidade sobre os dados (dado $H_0$ ), não sobre as hipóteses. $P(\text{dados} \mid H_0) \neq P(H_0 \mid \text{dados})$ — confundir os dois é a falácia da transposição do condicional (base rate neglect).
$1 - p\text{-valor} = 0{,}97$ não tem interpretação de probabilidade de $H_1$ . Para obter $P(H_1 \mid \text{dados})$ , precisaria do Teorema de Bayes com uma prior sobre as hipóteses.

Interpretação correta: "Se $H_0$ fosse verdadeira, haveria apenas 3% de probabilidade de observar um efeito tão grande (ou maior) quanto o observado. Os dados são estatisticamente incompatíveis com $H_0$ ao nível de 5%."

Verificação. Dois estudos independentes com $p = 0{,}04$ cada um não implicam um terceiro estudo com $p = 0{,}04$ — a combinação de evidências é feita por meta-análise, não por multiplicação de p-valores.

Fonte. OpenIntro Statistics, §5.1, Seção "Interpreting p-values" — CC-BY-SA.

Exercise list

26 exercises · 6 with worked solution (25%)

Application 18Understanding 4Modeling 2Challenge 1Proof 1

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.1–5.3 (estrutura do teste, p-valor, poder, tamanho amostral).
Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 9 (hipóteses nula e alternativa, erros Tipo I e II, exemplos completos com z).
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 10–11 (crise de replicabilidade, uso responsável do p-valor, FDR, tamanho de efeito).