v1 · padrão canônico

Lição 108 — Teste qui-quadrado: aderência e independência

Estatística chi-quadrado: distribuição assintótica, graus de liberdade, teste de aderência (goodness of fit) e teste de independência em tabelas de contingência. Correção de Yates, V de Cramér.

Used in: 3.º ano EM · Stochastik LK alemão · H2 Statistics singapurense · Math B japonês — estatística inferencial

\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

A estatística qui-quadrado mede a discrepância total entre contagens observadas $O_i$ e contagens esperadas $E_i$ sob $H_0$ . Quanto maior $\chi^2$ , mais evidência contra a hipótese nula. Para aderência, testa se os dados seguem uma distribuição prescrita; para independência, testa se duas variáveis categóricas são independentes em uma tabela $r \times c$ .

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Distribuição qui-quadrado

"As distribuições qui-quadrado têm uma propriedade de aditividade: se $X_1 \sim \chi^2_{n_1}$ e $X_2 \sim \chi^2_{n_2}$ são independentes, então $X_1 + X_2 \sim \chi^2_{n_1 + n_2}$ ." — OpenStax Statistics, §11.1

Teste de aderência (goodness of fit)

Definition· Hipoteses e estatistica de aderencia

Dada uma amostra de $n$ observações categorizadas em $k$ classes:

Hipóteses: $H_0: p_i = p_i^0 \quad (i = 1, \ldots, k) \qquad \text{vs.} \qquad H_1: \text{pelo menos um } p_i \neq p_i^0$

Frequências esperadas: $E_i = n \, p_i^0$ .

Estatística: $\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$

Graus de liberdade: $df = k - 1 - r$ , onde $r$ é o número de parâmetros estimados a partir dos dados (tipicamente $r = 0$ para distribuições completamente especificadas).

Sob $H_0$ , $\chi^2 \xrightarrow{d} \chi^2_{df}$ quando $n \to \infty$ (resultado assintótico de Pearson, 1900).

Teste de independência em tabela $r \times c$

"As frequências esperadas para um teste de independência são calculadas assumindo que as proporções da linha são iguais em todas as colunas. Se a hipótese nula for verdadeira (variáveis independentes), esse pressuposto é satisfeito." — OpenIntro Statistics, §6.4

Suposições de validade (regra de Cochran)

Correção de Yates (tabela $2 \times 2$ )

Tamanho de efeito: V de Cramér

Curva qui-quadrado com df = 5. A região amarela à direita do valor crítico é a área de rejeição de H0 ao nível alpha = 5%.

Exemplos resolvidos

Example— 1· Aderencia: dado honesto?

Problema. Um dado é lançado 120 vezes. Contagens por face: 15, 22, 17, 25, 19, 22. Ao nível 5%, o dado é honesto?

Estratégia. Teste de aderência: $H_0$ é que cada face tem probabilidade 1/6. Esperado: $E_i = 120/6 = 20$ para cada face. $df = 6 - 1 = 5$ .

Resolução.

$\chi^2 = \frac{(15-20)^2}{20} + \frac{(22-20)^2}{20} + \frac{(17-20)^2}{20} + \frac{(25-20)^2}{20} + \frac{(19-20)^2}{20} + \frac{(22-20)^2}{20}$

$= \frac{25 + 4 + 9 + 25 + 1 + 4}{20} = \frac{68}{20} = 3,40$

Valor crítico: $\chi^2_{0,05;\,5} = 11,07$ . Como $3,40 < 11,07$ , não rejeitamos $H_0$ .

Verificação. O p-valor associado a $\chi^2 = 3,40$ com $df = 5$ é aproximadamente 0,64 — bem acima de 0,05. A maior discrepância foi na face 4 (+5), mas dentro do esperado por variação amostral.

Fonte. OpenStax Statistics, §11.3, Example 11.3 — CC-BY.

Example— 2· Independencia: genero e opiniao sobre politica de cotas

Problema. Pesquisa com 400 eleitores brasileiros registra gênero (Masc/Fem) e opinião sobre cotas raciais (Favorável/Neutro/Contrário). Tabela observada:

	Favorável	Neutro	Contrário	Total
Masculino	80	40	80	200
Feminino	120	50	30	200
Total	200	90	110	400

Teste independência a $\alpha = 5\%$ .

Estratégia. Tabela $2 \times 3$ : $df = (2-1)(3-1) = 2$ .

Resolução.

$E_{M,Fav} = 200 \times 200 / 400 = 100$ ; $E_{M,Neu} = 200 \times 90/400 = 45$ ; $E_{M,Con} = 200 \times 110/400 = 55$ .

$E_{F,Fav} = 100$ ; $E_{F,Neu} = 45$ ; $E_{F,Con} = 55$ .

$\chi^2 = \frac{(80-100)^2}{100} + \frac{(40-45)^2}{45} + \frac{(80-55)^2}{55} + \frac{(120-100)^2}{100} + \frac{(50-45)^2}{45} + \frac{(30-55)^2}{55}$

$= 4,00 + 0,56 + 11,36 + 4,00 + 0,56 + 11,36 = 31,84$

Valor crítico: $\chi^2_{0,05;\,2} = 5,99$ . Como $31,84 \gg 5,99$ , rejeitamos $H_0$ — há associação significativa.

Verificação. $V = \sqrt{31,84/(400 \times 1)} \approx 0,282$ — efeito médio. A maior contribuição vem da categoria "Contrário" (25 pontos de 31,84).

Fonte. OpenIntro Statistics, §6.4, Exercise 6.29 — CC-BY-SA.

Example— 3· Aderencia a distribuicao de Poisson

Problema. Um call center registra o número de ligações por hora em 200 horas: 0 ligações (30 horas), 1 ligação (60 horas), 2 ligações (54 horas), 3 ligações (36 horas), 4 ou mais (20 horas). Teste se os dados seguem Poisson a 5%.

Estratégia. Estima-se $\hat{\lambda} = (0 \cdot 30 + 1 \cdot 60 + 2 \cdot 54 + 3 \cdot 36 + 4 \cdot 20)/200 = 328/200 = 1,64$ . Como estimamos 1 parâmetro, $df = 5 - 1 - 1 = 3$ .

Resolução.

Probabilidades Poisson( $\hat{\lambda} = 1,64$ ): $p_0 = e^{-1,64} \approx 0,1942$ ; $p_1 \approx 0,3185$ ; $p_2 \approx 0,2612$ ; $p_3 \approx 0,1427$ ; $p_{4+} = 1 - \sum_{0}^{3} p_i \approx 0,0834$ .

Esperados: $E_0 = 38,8$ ; $E_1 = 63,7$ ; $E_2 = 52,2$ ; $E_3 = 28,5$ ; $E_{4+} = 16,7$ . Todos $\geq 5$ : OK.

$\chi^2 = \frac{(30-38,8)^2}{38,8} + \frac{(60-63,7)^2}{63,7} + \frac{(54-52,2)^2}{52,2} + \frac{(36-28,5)^2}{28,5} + \frac{(20-16,7)^2}{16,7}$

$\approx 2,00 + 0,21 + 0,06 + 1,97 + 0,65 = 4,89$

Valor crítico: $\chi^2_{0,05;\,3} = 7,81$ . Como $4,89 < 7,81$ , não rejeitamos $H_0$ — os dados são compatíveis com Poisson.

Verificação. O $df = 3$ (e não 4) porque estimamos $\lambda$ dos próprios dados; não usar $df$ errado é a armadilha mais comum neste tipo de problema.

Fonte. OpenStax Statistics, §11.3, Example 11.5 (adaptado) — CC-BY.

Example— 4· Tabela 2x2 com correcao de Yates

Problema. Um ensaio clínico compara vacina vs. placebo em 60 voluntários (30 em cada grupo). Resultados:

	Protegido	Não protegido	Total
Vacina	22	8	30
Placebo	15	15	30
Total	37	23	60

Com correção de Yates, teste independência a 5%.

Estratégia. Tabela $2 \times 2$ , $df = 1$ . Esperados: $E_{V,P} = 37 \times 30/60 = 18,5$ ; $E_{V,NP} = 23 \times 30/60 = 11,5$ ; demais iguais por simetria.

Resolução.

$\chi^2_Y = \frac{(\lvert 22 - 18,5\rvert - 0,5)^2}{18,5} + \frac{(\lvert 8 - 11,5\rvert - 0,5)^2}{11,5} + \frac{(\lvert 15 - 18,5\rvert - 0,5)^2}{18,5} + \frac{(\lvert 15 - 11,5\rvert - 0,5)^2}{11,5}$

$= \frac{(3,0)^2}{18,5} + \frac{(3,0)^2}{11,5} + \frac{(3,0)^2}{18,5} + \frac{(3,0)^2}{11,5} = \frac{9}{18,5} + \frac{9}{11,5} + \frac{9}{18,5} + \frac{9}{11,5}$

$= 0,486 + 0,783 + 0,486 + 0,783 = 2,538$

Valor crítico: $\chi^2_{0,05;\,1} = 3,84$ . Como $2,538 < 3,84$ , não rejeitamos $H_0$ ao nível 5%.

Verificação. Sem correção de Yates: $\chi^2 = (3,5)^2 \times (2/18,5 + 2/11,5) = 12,25 \times (0,108 + 0,174) = 3,45$ . Ainda não rejeitaria, mas a correção foi conservadora como esperado.

Fonte. OpenIntro Statistics, §6.4, Exercise 6.35 (adaptado) — CC-BY-SA.

Example— 5· Genetica mendeliana: proporcao 9:3:3:1

Problema. Um cruzamento dihíbrido em ervilhas (Mendel) prevê fenótipos na proporção 9:3:3:1 (liso-amarelo : liso-verde : rugoso-amarelo : rugoso-verde). Observa-se em 160 descendentes: 90, 30, 27, 13. Teste a 5% se os dados seguem Mendel.

Estratégia. Proporcões esperadas: $p_1 = 9/16$ , $p_2 = 3/16$ , $p_3 = 3/16$ , $p_4 = 1/16$ . $df = 4 - 1 = 3$ (distribuição completamente especificada).

Resolução.

$E_1 = 160 \times 9/16 = 90$ ; $E_2 = 160 \times 3/16 = 30$ ; $E_3 = 30$ ; $E_4 = 160 \times 1/16 = 10$ .

$\chi^2 = \frac{(90-90)^2}{90} + \frac{(30-30)^2}{30} + \frac{(27-30)^2}{30} + \frac{(13-10)^2}{10}$

$= 0 + 0 + \frac{9}{30} + \frac{9}{10} = 0,30 + 0,90 = 1,20$

Valor crítico: $\chi^2_{0,05;\,3} = 7,81$ . Como $1,20 \ll 7,81$ , não rejeitamos $H_0$ — os dados são consistentes com as leis de Mendel.

Verificação. O p-valor é aproximadamente 0,75 — os dados se encaixam quase perfeitamente na proporção 9:3:3:1. A categoria rugoso-verde ( $E_4 = 10$ ) está exatamente no limite da regra de Cochran; para amostras menores seria recomendável fusão de categorias ou Fisher–Freeman–Halton.

Fonte. OpenStax Statistics, §11.3, Example 11.7 (adaptado) — CC-BY.

Exercise list

42 exercises · 10 with worked solution (25%)

Application 23Understanding 8Modeling 7Challenge 2Proof 2

Fontes

OpenStax Statistics — Illowsky, Dean · CC-BY · Capítulo 11 (§11.1–11.5). Fonte primária dos exercícios e exemplos.
OpenIntro Statistics (4ª ed) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · §6.3–6.4. Abordagem conceitual e exercícios de contexto.
Introduction to Modern Statistics — Çetinkaya-Rundel, Hardin · CC-BY-SA · §18–19. Perspectiva via simulação e inferência moderna.