v1 · padrão canônico

Lição 80 — Consolidação Trim 8 — Estatística e probabilidade aplicada

Workshop integrador: medidas centrais, variância, quartis, v.a. discreta, binomial, normal, TCL, correlação e Bayes em problemas reais brasileiros.

Used in: 2.º ano do EM (16-17 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · Equiv. H2 Maths Statistics (Singapura)

\text{Dados} \xrightarrow{\text{descrever}} \hat\mu,\,\hat\sigma \xrightarrow{\text{modelar}} P(X) \xrightarrow{\text{inferir}} P(H \mid E)

O pipeline completo do trimestre: resumir dados com $\hat\mu$ e $\hat\sigma$ , escolher um modelo probabilístico (binomial, normal), e atualizar crenças via regra de Bayes $P(H\mid E)$ . Cada seta é uma aula; esta lição tece as flechas em cadeia.

Choose your door

Rigorous notation, full derivation, hypotheses

Síntese formal do trimestre

Estatística descritiva

"A variância é a média dos quadrados dos desvios em relação à média. Para uma amostra, divide-se por $n-1$ (correção de Bessel) em vez de $n$ ." — OpenIntro Statistics §2.1

Variável aleatória discreta

"A esperança é uma média ponderada dos possíveis valores de $X$ , ponderada pelas probabilidades." — Grinstead & Snell §6.1

Distribuições paramétricas

Definition· Binomial, Normal e aproximação

Binomial $X \sim \text{Bin}(n,p)$ : $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad E[X]=np, \quad \text{Var}(X)=np(1-p)$

Normal $X \sim \mathcal{N}(\mu, \sigma^2)$ : função de densidade $f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

Padronização: $Z = (X - \mu)/\sigma \sim \mathcal{N}(0,1)$

Regra 68-95-99,7: $P(\mu - k\sigma \leq X \leq \mu + k\sigma)$ vale $\approx 68\%$ , $\approx 95\%$ , $\approx 99{,}7\%$ para $k = 1, 2, 3$ .

Aproximação normal para binomial: se $np \geq 10$ e $n(1-p) \geq 10$ , então $X \approx \mathcal{N}(np,\; np(1-p))$ .

Teorema Central do Limite

"O TCL é indiscutivelmente o resultado mais importante de toda a teoria de probabilidade. Afirma que a distribuição da média amostral se aproxima da normal independentemente da distribuição original de $X$ ." — OpenIntro Statistics §4.4

Correlação e regressão

Regra de Bayes

Pipeline do Trim 8. Cada bloco corresponde a um grupo de aulas (72–73, 74–76, 77, 78–79).

Exemplos resolvidos

Example— 1· Variância, IQR e detecção de outlier

Problema: Considere a amostra de tempos de atendimento (em minutos): 5, 7, 8, 8, 9, 10, 10, 11, 12, 30. Calcule média, variância amostral, mediana, $Q_1$ , $Q_3$ , IQR e identifique outliers pela cerca de Tukey.

Estratégia: Aplicar definições em sequência: ordenar, localizar quartis, calcular IQR, aplicar critério $1{,}5 \cdot \text{IQR}$ .

Resolução:

Amostra ordenada: 5, 7, 8, 8, 9, 10, 10, 11, 12, 30. ( $n = 10$ )

Média: $\bar x = (5+7+8+8+9+10+10+11+12+30)/10 = 110/10 = 11$ .

Variância amostral:

$s^2 = \frac{1}{9}\sum(x_i - 11)^2 = \frac{(−6)^2+(−4)^2+(−3)^2+(−3)^2+(−2)^2+(-1)^2+(-1)^2+0^2+1^2+19^2}{9}$

$= \frac{36+16+9+9+4+1+1+0+1+361}{9} = \frac{438}{9} \approx 48{,}7 \implies s \approx 6{,}98$

Mediana (posição 5,5): $(9 + 10)/2 = 9{,}5$ .

$Q_1$ (mediana dos 5 primeiros): 8.

$Q_3$ (mediana dos 5 últimos): 11.

IQR: $11 - 8 = 3$ .

Cerca inferior: $8 - 1{,}5 \times 3 = 3{,}5$ . Cerca superior: $11 + 1{,}5 \times 3 = 15{,}5$ .

O valor 30 é outlier (acima de 15,5). O valor 5 está dentro da cerca (acima de 3,5).

Verificação: A média (11) ficou inflada pelo outlier 30; a mediana (9,5) representa melhor o centro. IQR (3) é mais robusto que $s$ (6,98) na presença de outlier.

Fonte. OpenIntro Statistics §2.1–2.2 — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA.

Example— 2· Esperança e variância de variável aleatória discreta

Problema: Um dado honesto de 4 faces tem $X \in \{1, 2, 3, 4\}$ com probabilidades iguais $1/4$ . Calcule $E[X]$ , $\text{Var}(X)$ e $E[3X - 2]$ .

Estratégia: Aplicar a definição de esperança; usar $\text{Var}(X) = E[X^2] - (E[X])^2$ ; aplicar linearidade para $E[3X - 2]$ .

Resolução:

$E[X] = \frac{1}{4}(1 + 2 + 3 + 4) = \frac{10}{4} = 2{,}5$

$E[X^2] = \frac{1}{4}(1 + 4 + 9 + 16) = \frac{30}{4} = 7{,}5$

$\text{Var}(X) = 7{,}5 - (2{,}5)^2 = 7{,}5 - 6{,}25 = 1{,}25$

$E[3X - 2] = 3 E[X] - 2 = 3 \times 2{,}5 - 2 = 5{,}5$

Verificação: Por simetria, $E[X] = (1+4)/2 = 2{,}5$ . Para $\text{Var}$ : a fórmula para distribuição uniforme discreta em $\{1,\ldots,n\}$ é $(n^2-1)/12 = (16-1)/12 = 1{,}25$ . Confere.

Fonte. Grinstead & Snell, Introduction to Probability §6.1, pág. 224 — GNU FDL.

Example— 3· Binomial e aproximação normal

Problema: Uma linha de produção tem taxa de defeito $p = 0{,}04$ . Em um lote de $n = 200$ peças, calcule $E[X]$ , $\text{Var}(X)$ , e use aproximação normal para encontrar $P(X \geq 12)$ .

Estratégia: Verificar critério de aproximação ( $np \geq 10$ e $n(1-p) \geq 10$ ), padronizar com correção de continuidade.

Resolução:

$X \sim \text{Bin}(200, 0{,}04)$ .

$E[X] = 200 \times 0{,}04 = 8$ . $\text{Var}(X) = 200 \times 0{,}04 \times 0{,}96 = 7{,}68$ . $\sigma = \sqrt{7{,}68} \approx 2{,}77$ .

Critério: $np = 8 < 10$ . A aproximação normal é limítrofe — o resultado é uma estimativa. Neste exercício, usamos mesmo assim para praticar a técnica.

Com correção de continuidade: $P(X \geq 12) \approx P\!\left(Z \geq \dfrac{11{,}5 - 8}{2{,}77}\right) = P(Z \geq 1{,}26)$ .

Tabela: $P(Z \geq 1{,}26) = 1 - \Phi(1{,}26) \approx 1 - 0{,}8962 = 0{,}1038 \approx 10{,}4\%$ .

Verificação: Valor exato via binomial: $P(X \geq 12) \approx 10{,}6\%$ . Aproximação razoável, com erro de 0,2 p.p.

Fonte. OpenStax Statistics §4.3 — Binomial Distribution, ex. 4.15 e §6.3 — licença CC-BY.

Example— 4· Teorema Central do Limite — média amostral

Problema: O peso de pacotes de café de uma marca tem $\mu = 500$ g e $\sigma = 8$ g (distribuição desconhecida). Uma fiscalização amostra 64 pacotes. Qual a probabilidade de que a média amostral seja menor que 498 g?

Estratégia: Aplicar o TCL: $\bar X \sim \mathcal{N}(500,\; 8^2/64)$ para $n = 64$ grande.

Resolução:

Erro padrão: $\sigma_{\bar X} = 8/\sqrt{64} = 8/8 = 1$ g.

$P(\bar X < 498) = P\!\left(Z < \frac{498 - 500}{1}\right) = P(Z < -2) = \Phi(-2) \approx 0{,}0228$

Probabilidade $\approx 2{,}3\%$ .

Verificação: A probabilidade é baixa, como esperado: 498 g está 2 desvios padrão abaixo da média amostral esperada. Observe que $n = 64$ é suficiente para o TCL mesmo sem conhecer a distribuição original.

Fonte. OpenIntro Statistics §4.4 — Central Limit Theorem, pág. 181 — CC-BY-SA.

Example— 5· Regra de Bayes — teste diagnóstico com baixa prevalência

Problema: Uma doença tem prevalência 1% na população. Um teste tem sensibilidade 90% e especificidade 95%. Uma pessoa testa positivo. Qual a probabilidade de que ela esteja doente (VPP)?

Estratégia: Aplicar Bayes com $H =$ "doente", $E =$ "teste positivo". Calcular $P(E)$ pela lei da probabilidade total.

Resolução:

Dados: $P(H) = 0{,}01$ , $P(H^c) = 0{,}99$ , $P(E \mid H) = 0{,}90$ , $P(E \mid H^c) = 0{,}05$ .

$P(E) = P(E \mid H)P(H) + P(E \mid H^c)P(H^c) = 0{,}90 \times 0{,}01 + 0{,}05 \times 0{,}99 = 0{,}009 + 0{,}0495 = 0{,}0585$

$P(H \mid E) = \frac{P(E \mid H)\,P(H)}{P(E)} = \frac{0{,}009}{0{,}0585} \approx 0{,}1538 \approx 15{,}4\%$

Verificação: Intuitivo via árvore: em 10.000 pessoas, 100 doentes, 900 sadios. Dos doentes: $0{,}9 \times 100 = 90$ positivos. Dos sadios: $0{,}05 \times 9900 = 495$ positivos. Total de positivos: 585. VPP = $90/585 \approx 15{,}4\%$ . Confere.

Fonte. OpenIntro Statistics §2.2 — Conditional Probability, ex. 2.29, pág. 88 — CC-BY-SA.

Exercise list

37 exercises · 9 with worked solution (25%)

Application 10Understanding 4Modeling 13Challenge 5Proof 5

Fontes

OpenIntro Statistics (4.ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA · Fonte primária do trimestre.
OpenStax — Statistics — Illowsky, Dean · CC-BY · Exercícios de aplicação contextualizada.
Grinstead & Snell — Introduction to Probability — GNU FDL · Rigor teórico para v.a. discreta, LGN e TCL.