v1 · padrão canônico

Lição 101 — Amostragem: tipos, vieses e distribuição amostral

Amostragem aleatória simples, estratificada e por conglomerados. Vieses de seleção. Distribuição amostral da média e o Teorema Central do Limite.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

\bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \mathrm{E}[\bar X] = \mu, \quad \mathrm{Var}(\bar X) = \frac{\sigma^2}{n}

A média amostral $\bar X$ é não-viesada para $\mu$ e sua variância cai com $n$ . Pelo Teorema Central do Limite, $\bar X$ tem distribuição aproximadamente normal para $n$ suficientemente grande, independentemente da distribuição da população.

Choose your door

Rigorous notation, full derivation, hypotheses

Definição rigorosa

Estrutura: população, amostra e parâmetros

"Uma amostra é o subconjunto da população. Uma estatística é um número calculado de uma amostra. Os parâmetros são números que resumem dados de uma população inteira." — OpenStax Statistics, §1.1

Tipos de amostragem

"Na amostragem estratificada, a população é dividida em grupos chamados estratos. Uma amostra aleatória é então selecionada de cada estrato." — OpenStax Statistics, §1.3

Propriedades desejáveis de estimadores

Distribuição amostral da média

Theorem· Teorema Central do Limite (TCL)

Sejam $X_1, X_2, \ldots, X_n$ iid com $\mathrm{E}[X_i] = \mu$ e $\mathrm{Var}(X_i) = \sigma^2 < \infty$ . Então:

\frac{\bar X - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0,1) \quad \text{quando } n \to \infty

what this means · Padronização da média amostral converge em distribuição para a Normal padrão.

Equivalentemente, para $n$ grande: $\bar X \overset{\text{aprox.}}{\sim} \mathcal{N}\!\left(\mu,\, \sigma^2/n\right)$ .

Regra prática: $n \geq 30$ é suficiente para populações aproximadamente simétricas; populações muito assimétricas exigem $n$ maior.

Vieses comuns

Quatro fontes clássicas de viés amostral. Cada uma faz a amostra não representar a população-alvo.

Exemplos resolvidos

Example— 101.1· Erro padrão da média amostral (básico)

Problema. Uma pesquisa sobre renda mensal coleta $n = 64$ trabalhadores. O desvio padrão populacional é conhecido: $\sigma = R\$ ,800$. Calcule o erro padrão da média amostral.

Estratégia. Aplicar a fórmula $\mathrm{SE}(\bar X) = \sigma/\sqrt{n}$ diretamente.

Resolução.

$\mathrm{SE}(\bar X) = \frac{\sigma}{\sqrt{n}} = \frac{800}{\sqrt{64}} = \frac{800}{8} = 100$

O erro padrão é R$ 100.

Verificação. Para $n = 256$ (quatro vezes maior): $\mathrm{SE} = 800/16 = 50$ . Quadruplicar $n$ reduz o erro padrão à metade. Consistente com a relação $\mathrm{SE} \propto 1/\sqrt{n}$ .

Fonte. OpenStax Statistics, §7.1, Exemplo 7.1 — CC-BY.

Example— 101.2· Tamanho de amostra para margem de erro (intermediário)

Problema. Um pesquisador quer estimar a proporção de estudantes do ensino médio que trabalham, com margem de erro máxima de 3% a 95% de confiança. Qual o tamanho mínimo de amostra?

Estratégia. Usar a fórmula conservadora $n = z_{\alpha/2}^2/(4E^2)$ com $p = 0{,}5$ (caso mais desfavorável).

Resolução.

$n = \frac{z_{\alpha/2}^2}{4E^2} = \frac{(1{,}960)^2}{4 \cdot (0{,}03)^2} = \frac{3{,}8416}{0{,}0036} \approx 1068$

Arredonda-se para cima: $n = 1068$ .

Verificação. Com $n = 1068$ e $p = 0{,}5$ : $\mathrm{ME} = 1{,}96\sqrt{0{,}25/1068} = 1{,}96 \cdot 0{,}01531 \approx 0{,}030$ . Dentro do limite de 3%.

Fonte. OpenIntro Statistics, §5.2, Exemplo 5.10 — CC-BY-SA.

Example— 101.3· Aplicação do TCL — probabilidade da média amostral (intermediário)

Problema. O tempo de atendimento em uma UBS tem média $\mu = 18$ min e desvio $\sigma = 6$ min. Uma amostra de $n = 36$ atendimentos é coletada. Qual a probabilidade de a média amostral ser maior que 20 min?

Estratégia. Pelo TCL, $\bar X \approx \mathcal{N}(18,\, 36/36) = \mathcal{N}(18, 1)$ . Padronizar e usar a tabela Z.

Resolução.

$Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} = \frac{20 - 18}{6/\sqrt{36}} = \frac{2}{1} = 2{,}00$

$P(\bar X > 20) = P(Z > 2{,}00) = 1 - \Phi(2{,}00) = 1 - 0{,}9772 = 0{,}0228$

Probabilidade de aproximadamente 2,3%.

Verificação. O valor $\bar X = 20$ está 2 desvios padrões acima da média: pela regra 68-95-99,7, apenas cerca de 2,5% das médias amostrais devem cair acima de $\mu + 2\,\mathrm{SE}$ . O resultado 2,28% é coerente.

Fonte. OpenStax Statistics, §7.2, Exemplo 7.3 — CC-BY.

Example— 101.4· Identificação de viés amostral (conceitual)

Problema. Uma revista de negócios conduz uma pesquisa online sobre satisfação com o sistema tributário brasileiro, obtendo 80% de respostas negativas. O editor afirma: "8 em cada 10 empresários estão insatisfeitos com os impostos". Identifique os vieses presentes.

Estratégia. Verificar cada etapa do processo amostral: quem tem acesso, quem responde, quem é representado.

Resolução.

Três vieses se acumulam:

Viés de seleção: pesquisa online exclui empresários sem acesso digital (pequenos negócios rurais, microempreendedores informais).
Viés de não-resposta: questões tributárias mobilizam mais quem está insatisfeito (quem está satisfeito não sente urgência em responder).
Viés de quadro amostral: leitores da revista são empresários de maior porte ou com interesse específico em gestão — não representam o universo de todos os "empresários brasileiros".

Conclusão: a estimativa de 80% superestima sistematicamente a insatisfação na população geral.

Verificação. Pesquisa IBGE/IBPT com amostra probabilística, conduzida por entrevistadores, produziria resultado distinto — e metodologicamente defensável.

Fonte. OpenIntro Statistics, §1.4, Seção "Sampling Bias" — CC-BY-SA.

Example— 101.5· Amostragem estratificada: cálculo de eficiência (avançado)

Problema. Uma empresa tem 3 departamentos: A (200 func., $\sigma_A = 4$ mil R$), B (500 func., $\sigma_B = 2$ mil R$), C (300 func., $\sigma_C = 6$ mil R$). Orçamento para $n = 100$ entrevistas. Compare a variância da AAS com a estratificada proporcional para estimar o salário médio.

Estratégia. Calcular variância da AAS e da estratificada (alocação proporcional).

Resolução.

Variância da população: $\sigma^2 = \sum (N_k/N)\sigma_k^2$ (aproximação — ignora variância entre médias dos estratos para simplificar):

Alocação proporcional: $n_A = 20$ , $n_B = 50$ , $n_C = 30$ .

$\mathrm{Var}(\bar X_{\text{est}}) = \sum_{k} \left(\frac{N_k}{N}\right)^2 \frac{\sigma_k^2}{n_k}$

$= \left(\frac{200}{1000}\right)^2\frac{16}{20} + \left(\frac{500}{1000}\right)^2\frac{4}{50} + \left(\frac{300}{1000}\right)^2\frac{36}{30}$

$= 0{,}04 \cdot 0{,}8 + 0{,}25 \cdot 0{,}08 + 0{,}09 \cdot 1{,}2 = 0{,}032 + 0{,}020 + 0{,}108 = 0{,}160$

Erro padrão estratificado: $\sqrt{0{,}160} \approx 0{,}40$ mil R$.

Para comparação, a AAS simples com $n = 100$ e variância total aproximada $\sigma^2 \approx (200 \cdot 16 + 500 \cdot 4 + 300 \cdot 36)/1000 = (3200 + 2000 + 10800)/1000 = 16$ daria $\mathrm{Var}(\bar X_{\text{AAS}}) = 16/100 = 0{,}160$ . Neste caso a alocação proporcional coincide numericamente com a AAS — o ganho de eficiência vem quando as médias dos estratos diferem muito.

Verificação. O resultado confirma a teoria: com alocação proporcional e estratos com variâncias diferentes, o estratificado é ao menos tão eficiente quanto a AAS.

Fonte. OpenIntro Statistics, §1.4, Exercício 1.35 — CC-BY-SA.

Exercise list

30 exercises · 7 with worked solution (25%)

Application 20Understanding 4Modeling 4Challenge 1Proof 1

Fontes

OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §1.3–1.4 (tipos de amostragem e vieses) e §4.1–4.2 (distribuição amostral).
Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 1 (introdução a amostragem) e Capítulo 7 (distribuição amostral e TCL).
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 3–4 (viés amostral e distribuição amostral com simulações).