v1 · padrão canônico

Lição 104 — Teste z e teste t de Student

Teste z para média com sigma conhecido. Teste t de Student: uma amostra, duas amostras independentes (Welch e pooled), e pareado. Condições de aplicação e escolha do teste adequado.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

T = \frac{\bar X - \mu_0}{s/\sqrt{n}} \sim t_{n-1} \quad \text{(uma amostra, } \sigma \text{ desconhecido)}

O teste t de Student substitui o desvio padrão populacional desconhecido pelo desvio amostral $s$ , pagando o preço com caudas mais pesadas (distribuição $t_{n-1}$ ). Para duas amostras independentes, usa-se Welch (variâncias diferentes) ou pooled (variâncias iguais). Para pares, opera-se sobre as diferenças.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Teste z — sigma conhecido

Teste t — uma amostra

"A distribuição t de Student é apropriada quando usamos o desvio padrão amostral $s$ em lugar de $\sigma$ . As caudas mais pesadas refletem a incerteza adicional de estimar $\sigma$ ." — OpenIntro Statistics, §5.3

Teste t — duas amostras independentes

Definition· Welch t (variancias diferentes)

Para $X_{1,i} \overset{\text{iid}}{\sim} F_1(\mu_1, \sigma_1^2)$ e $X_{2,j} \overset{\text{iid}}{\sim} F_2(\mu_2, \sigma_2^2)$ , independentes, testando $H_0: \mu_1 = \mu_2$ :

T_W = \frac{\bar X_1 - \bar X_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \overset{H_0}{\approx} t_\nu

what this means · Estatística de Welch: usa os desvios de cada grupo separadamente, sem assumir variâncias iguais.

Os graus de liberdade $\nu$ são aproximados pela fórmula de Welch-Satterthwaite:

\nu = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}}

what this means · Graus de liberdade efetivos de Welch-Satterthwaite. Sempre entre min(n1-1, n2-1) e n1+n2-2.

Definition· Pooled t (variancias iguais)

Quando $\sigma_1^2 = \sigma_2^2 = \sigma^2$ (variâncias assumidas iguais):

s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}

what this means · Variância pooled: estimativa combinada da variância comum usando ambos os grupos.

T_P = \frac{\bar X_1 - \bar X_2}{s_p\sqrt{1/n_1 + 1/n_2}} \overset{H_0}{\sim} t_{n_1 + n_2 - 2}

what this means · Estatística t pooled: graus de liberdade exatos n1+n2-2.

Recomendação: use Welch por padrão, pois é robusto mesmo quando $\sigma_1 = \sigma_2$ . O pooled t é válido apenas quando igualdade de variâncias é razoável.

Teste t pareado

Árvore de decisão para escolha do teste. Use Welch por padrão para duas amostras independentes.

Exemplos resolvidos

Example— 104.1· Teste t de uma amostra (basico)

Problema. O tempo de espera em um pronto-socorro foi historicamente $\mu_0 = 45$ min. Após implementação de triagem digital, uma amostra de $n = 25$ atendimentos deu $\bar X = 40$ min e $s = 10$ min. Ao nível 5%, o tempo médio diminuiu?

Estratégia. $H_0: \mu \geq 45$ , $H_1: \mu < 45$ (unilateral à esquerda). Estatística t com $df = 24$ .

Resolução.

$T = \frac{\bar X - \mu_0}{s/\sqrt{n}} = \frac{40 - 45}{10/\sqrt{25}} = \frac{-5}{2} = -2{,}50$

Valor crítico unilateral: $t_{0{,}05,\,24} = -1{,}711$ . Como $-2{,}50 < -1{,}711$ , rejeitamos $H_0$ .

p-valor: $P(t_{24} \leq -2{,}50) \approx 0{,}010 < 0{,}05$ . Confirmado.

Verificação. IC 95% unilateral: $\mu > 40 - 1{,}711 \times 2 = 36{,}58$ min. Como 45 está acima do limite inferior (mas o teste é sobre a superioridade de 45 vs o novo sistema, que foi rejeitada), consistente.

Fonte. OpenStax Statistics, §9.5, Exemplo 9.9 — CC-BY.

Example— 104.2· Welch t — duas amostras independentes (intermediario)

Problema. Compare a pressão arterial sistólica de dois grupos de pacientes:

Grupo dieta: $n_1 = 12$ , $\bar X_1 = 132$ mmHg, $s_1 = 18$ mmHg.
Grupo medicamento: $n_2 = 15$ , $\bar X_2 = 125$ mmHg, $s_2 = 10$ mmHg.

Ao nível 5%, as médias diferem?

Estratégia. $H_0: \mu_1 = \mu_2$ , $H_1: \mu_1 \neq \mu_2$ (bilateral). Usar Welch pois variâncias aparentemente diferentes ( $18^2 = 324$ vs $10^2 = 100$ , razão 3,24).

Resolução.

$\mathrm{SE} = \sqrt{\frac{18^2}{12} + \frac{10^2}{15}} = \sqrt{27 + 6{,}667} = \sqrt{33{,}667} = 5{,}803$

$T_W = \frac{132 - 125}{5{,}803} = \frac{7}{5{,}803} = 1{,}206$

Graus de liberdade de Welch (aproximação): $\nu \approx 17$ (calculando pela fórmula completa). Valor crítico bilateral: $t_{0{,}025,\,17} = 2{,}110$ . Como $1{,}206 < 2{,}110$ , não rejeitamos $H_0$ .

Verificação. p-valor $\approx 0{,}244 > 0{,}05$ . Com $n_1 = 12$ e $n_2 = 15$ , o poder é limitado para detectar diferenças de 7 mmHg. Um estudo maior seria recomendado.

Fonte. OpenIntro Statistics, §5.4, Exemplo 5.12 — CC-BY-SA.

Example— 104.3· Teste t pareado — antes e depois (intermediario)

Problema. Dez corredores tiveram seu VO2max medido antes e depois de 8 semanas de treinamento intervalado. As diferenças ( $D_i = \text{depois} - \text{antes}$ ) em mL/kg/min foram: 3, 1, 4, 2, 5, 0, 3, 2, 4, 2. Ao nível 5%, o treinamento melhorou o VO2max?

Estratégia. $H_0: \mu_D = 0$ , $H_1: \mu_D > 0$ (unilateral). Calcular $\bar D$ e $s_D$ das diferenças.

Resolução.

$\sum D_i = 3+1+4+2+5+0+3+2+4+2 = 26$ . $\bar D = 26/10 = 2{,}6$ mL/kg/min.

$\sum D_i^2 = 9+1+16+4+25+0+9+4+16+4 = 88$ . $s_D^2 = (88 - 10 \times 2{,}6^2)/(10-1) = (88 - 67{,}6)/9 = 20{,}4/9 = 2{,}267$ . $s_D = 1{,}506$ .

$T = \frac{\bar D}{s_D/\sqrt{n}} = \frac{2{,}6}{1{,}506/\sqrt{10}} = \frac{2{,}6}{0{,}4763} = 5{,}46$

Valor crítico $t_{0{,}05,\,9} = 1{,}833$ . Como $5{,}46 > 1{,}833$ , rejeitamos $H_0$ . p-valor $< 0{,}001$ .

Verificação. IC 95% para $\mu_D$ : $2{,}6 \pm 2{,}262 \times 0{,}476 = 2{,}6 \pm 1{,}077$ , ou seja, $[1{,}52;\; 3{,}68]$ mL/kg/min. Como o IC não inclui 0, consistente com a rejeição de $H_0$ .

Fonte. OpenIntro Statistics, §5.4, Exemplo 5.14 — CC-BY-SA.

Example— 104.4· Pooled t versus Welch — quando usar cada um (avancado)

Problema. Dois processos de usinagem produzem peças metálicas. Processo A: $n_1 = 20$ , $\bar X_1 = 50{,}2$ mm, $s_1 = 0{,}8$ mm. Processo B: $n_2 = 25$ , $\bar X_2 = 50{,}0$ mm, $s_2 = 0{,}9$ mm. Calcule o teste pooled e o de Welch. Compare.

Estratégia. Ambos testam $H_0: \mu_1 = \mu_2$ , $H_1: \mu_1 \neq \mu_2$ com $\alpha = 0{,}05$ .

Resolução.

Pooled: $s_p^2 = (19 \times 0{,}64 + 24 \times 0{,}81)/(20+25-2) = (12{,}16 + 19{,}44)/43 = 31{,}60/43 = 0{,}735$ . $s_p = 0{,}857$ .

$T_P = (50{,}2 - 50{,}0)/(0{,}857\sqrt{1/20+1/25}) = 0{,}2/(0{,}857 \times 0{,}3) = 0{,}2/0{,}257 = 0{,}778$ . $df = 43$ .

Welch: $\mathrm{SE} = \sqrt{0{,}64/20 + 0{,}81/25} = \sqrt{0{,}032 + 0{,}0324} = \sqrt{0{,}0644} = 0{,}254$ . $T_W = 0{,}2/0{,}254 = 0{,}787$ . $\nu \approx 43$ (variâncias similares).

Ambos: $T \approx 0{,}78$ , $p \approx 0{,}44$ . Não rejeitamos $H_0$ . Os dois testes concordam quando as variâncias são similares.

Verificação. A razão das variâncias é $0{,}81/0{,}64 = 1{,}27$ — próxima de 1. Quando $s_1 \approx s_2$ , pooled e Welch produzem resultados praticamente idênticos.

Fonte. OpenStax Statistics, §10.1, Exemplo 10.1 — CC-BY.

Example— 104.5· Escolha do teste correto — caso completo (avancado)

Problema. Uma pesquisadora quer comparar o tempo de sono de adolescentes em escola integral versus escola regular. Ela coletou 15 adolescentes de cada tipo de escola, de forma independente. Dados resumidos: integral: $\bar X_1 = 7{,}2$ h, $s_1 = 1{,}4$ h; regular: $\bar X_2 = 8{,}1$ h, $s_2 = 0{,}8$ h. Ao nível 5%, o sono difere? Use o teste adequado.

Estratégia. Grupos independentes, variâncias aparentemente diferentes ( $s_1/s_2 = 1{,}75$ ). Usar Welch t.

Resolução.

$H_0: \mu_1 = \mu_2$ , $H_1: \mu_1 \neq \mu_2$ (bilateral).

$\mathrm{SE} = \sqrt{1{,}4^2/15 + 0{,}8^2/15} = \sqrt{1{,}96/15 + 0{,}64/15} = \sqrt{0{,}1307 + 0{,}04267} = \sqrt{0{,}1733} = 0{,}4163$ .

$T_W = (7{,}2 - 8{,}1)/0{,}4163 = -0{,}9/0{,}4163 = -2{,}162$ .

Graus de liberdade de Welch (aproximação): $\nu \approx 22$ . Valor crítico: $t_{0{,}025,\,22} = 2{,}074$ .

Como $\lvert -2{,}162 \rvert = 2{,}162 > 2{,}074$ , rejeitamos $H_0$ ao nível 5%. p-valor $\approx 0{,}042$ .

Tamanho de efeito de Cohen: $d = 0{,}9/\sqrt{(1{,}4^2 + 0{,}8^2)/2} = 0{,}9/\sqrt{1{,}3} = 0{,}9/1{,}14 = 0{,}79$ — efeito grande.

Verificação. IC 95% para $\mu_1 - \mu_2$ : $-0{,}9 \pm 2{,}074 \times 0{,}4163 = -0{,}9 \pm 0{,}863$ , ou seja, $[-1{,}763;\; -0{,}037]$ . Como não inclui 0, consistente com rejeição de $H_0$ .

Fonte. OpenIntro Statistics, §5.4, Exercício 5.17 — CC-BY-SA.

Exercise list

20 exercises · 5 with worked solution (25%)

Application 12Understanding 3Modeling 3Challenge 1Proof 1

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §5.3–5.4 (teste t de uma amostra, Welch, pareado; condições de aplicação).
Statistics (OpenStax) — Illowsky, Dean · CC-BY. Seções §9.5–9.6 e §10.1–10.4 (testes z e t, duas amostras independentes e pareadas).
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulo 12 (testes de comparação de grupos, simulação, perspectiva moderna).