Lição 101 — Amostragem: tipos, vieses e distribuição amostral
Amostragem aleatória simples, estratificada e por conglomerados. Vieses de seleção. Distribuição amostral da média e o Teorema Central do Limite.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense
A média amostral é não-viesada para e sua variância cai com . Pelo Teorema Central do Limite, tem distribuição aproximadamente normal para suficientemente grande, independentemente da distribuição da população.
Rigorous notation, full derivation, hypotheses
Definição rigorosa
Estrutura: população, amostra e parâmetros
"Uma amostra é o subconjunto da população. Uma estatística é um número calculado de uma amostra. Os parâmetros são números que resumem dados de uma população inteira." — OpenStax Statistics, §1.1
Tipos de amostragem
"Na amostragem estratificada, a população é dividida em grupos chamados estratos. Uma amostra aleatória é então selecionada de cada estrato." — OpenStax Statistics, §1.3
Propriedades desejáveis de estimadores
Distribuição amostral da média
Vieses comuns
Quatro fontes clássicas de viés amostral. Cada uma faz a amostra não representar a população-alvo.
Exemplos resolvidos
Exercise list
30 exercises · 7 with worked solution (25%)
- Ex. 101.1Application
Uma fábrica produz parafusos com peso médio e desvio padrão g. Uma amostra de parafusos é coletada. Calcule o erro padrão da média amostral.
Show solution
O erro padrão é kg. Como o estimador é não-viesado, a média amostral está centrada em , com flutuação de 5 kg em torno dela. - Ex. 101.2Application
Uma pesquisa começa com . Quantas vezes você precisa aumentar para reduzir o erro padrão à metade? Explique usando a fórmula.
Show solution
Quadruplicar reduz o erro padrão à metade, pois . De para : vai de para . Redução de 50%. - Ex. 101.3ApplicationAnswer key
O tempo de espera em uma agência bancária tem distribuição normal com s e s. Uma amostra de clientes é coletada. Qual a probabilidade de s?
Show solution
Pelo TCL (ou normalidade da população), . Probabilidade de é .Show step-by-step (with the why)
- Identifique os parâmetros: , , .
- Calcule o erro padrão: .
- Padronize: . Para : .
- Consulte a tabela Z: .
- Macete: Se a distribuição da população é normal, o resultado vale para qualquer — não precisa do TCL.
- Ex. 101.4Application
Um hospital quer estimar a satisfação dos pacientes com o atendimento. A diretora sabe que gênero e faixa etária influenciam muito a percepção. Qual tipo de amostragem é mais adequado? Justifique.
Show solution
Amostragem estratificada, com estratos por gênero e faixa etária. Garante representação adequada de subgrupos que poderiam ser sub-representados numa AAS com amostra pequena. - Ex. 101.5Application
Uma loja online envia um e-mail pedindo avaliação após cada compra. Apenas 12% dos clientes respondem. Identifique o tipo de viés mais provável e explique seu efeito na estimativa.
Show solution
Viés de auto-seleção. Quem responde voluntariamente a pesquisas de satisfação tende a ter opiniões mais extremas (muito satisfeito ou muito insatisfeito) do que a população geral de clientes. - Ex. 101.6Application
Uma pesquisa quer estimar a proporção de domicílios com acesso à internet na zona rural, com margem de erro de 4% a 95% de confiança. Qual o tamanho mínimo de amostra?
Show solution
. Necessário: 601 domicílios. - Ex. 101.7Application
Um consultor analisa o crescimento médio de 50 startups fundadas há 5 anos e que ainda estão ativas, concluindo que "startups crescem em média 120% ao ano". Qual viés está presente?
Show solution
Viés de sobrevivência. A análise considera apenas empresas que ainda existem, ignorando aquelas que faliram. O desempenho médio das sobreviventes superestima o desempenho esperado de uma empresa nova. - Ex. 101.8Application
Mostre que a média amostral é (a) não-viesada, (b) consistente e (c) eficiente para , na classe dos estimadores lineares.
Show solution
Não-viesado: sim, pois para qualquer . Consistente: sim, pois . Eficiente: entre estimadores lineares não-viesados de , tem variância mínima (Gauss-Markov). - Ex. 101.9Application
Um estudo sobre gastos com transporte público coleta registros. O desvio padrão histórico é \sigma = R\,40$. Calcule o erro padrão e interprete seu significado.
Show solution
reais. O Intervalo de 2 erros-padrão: média amostral estará entre e em cerca de 95% das amostras. - Ex. 101.10Application
O IBGE quer estimar a renda média das empresas brasileiras. Descreva como seriam uma AAS, uma estratificada por setor e uma por conglomerado. Qual seria mais eficiente? Por quê?
Show solution
AAS dá chance igual a cada empresa. Estratificado por setor garante que cada setor (indústria, comércio, serviços) esteja representado proporcionalmente. Por conglomerado seria sortear municípios e entrevistar todas empresas do município sorteado. A estratificada é mais eficiente quando renda média varia muito entre setores. - Ex. 101.11UnderstandingAnswer key
Para a média amostral com fixo e população iid, qual afirmação é correta?
Show solution
implica viés zero. e decresce com . Para variância zero precisaria . - Ex. 101.12UnderstandingAnswer key
Por que, em muitas pesquisas práticas, a média amostral tem distribuição aproximadamente normal, mesmo sem saber a distribuição exata da população?
Show solution
O TCL garante que se aproxima da normal para grande, independentemente da distribuição da população. A distribuição da população não precisa ser normal. - Ex. 101.13Understanding
Afirmação: "Na amostragem aleatória simples, cada indivíduo tem a mesma probabilidade de ser escolhido. Isso é equivalente a dizer que cada conjunto de indivíduos tem a mesma probabilidade de ser a amostra." A afirmação é correta?
Show solution
Na AAS, equiprobabilidade de indivíduo (todos têm chance ) e equiprobabilidade de subconjunto são equivalentes — cada conjunto de indivíduos tem a mesma chance. Isso NÃO garante representação de todos os subgrupos (pode ocorrer por acaso que um grupo fique sem representação). - Ex. 101.14Application
A nota média histórica de um exame é com . Para uma turma de , qual a probabilidade de a média da turma ser menor que 3,2?
Show solution
Pelo TCL, . . Probabilidade de cerca de 11,5%. - Ex. 101.15Application
O IBGE precisa estimar o acesso ao saneamento básico em municípios de todo o Brasil, com orçamento limitado. A lista de domicílios não está disponível, mas a lista de municípios e de ruas sim. Proponha um plano amostral.
Show solution
Por conglomerados em dois estágios: sortear cidades (primeiro estágio), depois sortear ruas dentro das cidades sorteadas. Eficiente operacionalmente pois concentra entrevistas em poucos municípios, reduzindo custo de deslocamento. - Ex. 101.16Application
Uma pesquisa com eleitores encontrou de aprovação ao governo municipal. Calcule o erro padrão e a margem de erro a 95% de confiança.
Show solution
. Margem de erro: . Resultado: 60% 4,8%.Show step-by-step (with the why)
- A fórmula de erro padrão da proporção é .
- Substitua: .
- Margem de erro a 95%: , ou seja, .
- Observação: A margem de erro da proporção é máxima quando . Para , a margem é ligeiramente menor do que para .
- Ex. 101.17ApplicationAnswer key
Calcule os tamanhos mínimos de amostra para estimar uma proporção com margem de erro de (a) 5% e (b) 2,5%, ambos com 95% de confiança. Explique a relação entre os resultados.
Show solution
De : para e 95%: . Para : . Diminuir a margem à metade quadruplica o tamanho necessário. - Ex. 101.18Application
Uma empresa tem 3000 clientes cadastrados em ordem de número de contrato. Quer selecionar 300 para uma pesquisa. Descreva o procedimento de amostragem sistemática e discuta quando ela pode introduzir viés.
Show solution
Amostragem sistemática: listar todos os 3000 clientes; sortear um cliente entre os 10 primeiros (ex: 4); selecionar o 4º, 14º, 24º, ..., até 300 clientes. É equivalente à AAS quando a lista não está ordenada por variáveis correlacionadas com o desfecho de interesse. - Ex. 101.19Application
O peso de pacotes de arroz tem kg e kg. Para uma amostra de , calcule .
Show solution
Pelo TCL: . . . Probabilidade de cerca de 89%. - Ex. 101.20Understanding
Uma universidade faz pesquisa de satisfação com alunos atualmente matriculados. Qual é o viés mais relevante nesta abordagem?
Show solution
Alunos que abandonaram o curso (potencialmente os mais insatisfeitos) não estão na lista de matriculados, portanto não podem ser entrevistados. A pesquisa mede satisfação apenas entre "sobreviventes" do programa, superestimando a satisfação média. - Ex. 101.21Application
Sem conhecimento prévio de , qual é o tamanho mínimo de amostra para estimar uma proporção com margem de erro de 2% a 95%?
Show solution
. Maximiza em : . Para 95%: . Arredonda para 2401. - Ex. 101.22Application
Um pesquisador entrevista moradores de uma cidade batendo em portas entre 9h e 17h de dias úteis. Ele quer estimar a renda média familiar. Identifique o viés e descreva sua direção (subestima ou superestima a renda média?).
Show solution
Viés de seleção: pesquisa porta-a-porta só alcança quem está em casa durante o dia — tipicamente desempregados, aposentados e trabalhadores domésticos. Trabalhadores em período integral ficam sistematicamente fora da amostra. - Ex. 101.23ApplicationAnswer key
O tempo de consulta médica tem min. Calcule o erro padrão da média para e , e compare.
Show solution
Para : min. Para : min. Quadruplicar reduz o SE à metade.Show step-by-step (with the why)
- Fórmula: .
- Para : min.
- Para : min.
- Razão: . Dobrar o (quadruplicar ) reduz o SE à metade.
- Macete: Para reduzir o SE por fator , multiplique por .
- Ex. 101.24Application
O consumo mensal de energia elétrica de uma cidade tem kWh e kWh. Para domicílios sorteados, calcule .
Show solution
Pelo TCL, . . Probabilidade de 10,6%. - Ex. 101.25Modeling
O IBGE usa cerca de 211 mil domicílios na PNAD Contínua. A taxa de desemprego nacional é de cerca de 12%. (a) Qual seria o mínimo teórico para estimar o desemprego com margem de a 95%? (b) Por que o IBGE usa um muito maior?
Show solution
Para estimativa nacional com de margem e : . O IBGE usa 211 mil para suportar estimativas estaduais com margem menor. O efeito de desenho (DEFF) da amostragem conglomerada eleva a variância efetiva, exigindo amostra maior do que uma AAS pura.Show step-by-step (with the why)
- O PNAD usa amostragem estratificada por UF e conglomerados em dois estágios.
- Para estimar desemprego nacional com margem de a 95%, use observações de desemprego. Mas a taxa de desemprego é rara (), logo a fórmula se ajusta para .
- Na prática, o IBGE usa 211 mil domicílios para suportar estimativas estaduais simultâneas e corrigir efeitos de desenho (DEFF maior que 1 por conglomeração).
- Curiosidade: O "efeito de desenho" (design effect) é a razão entre a variância real do estimador complexo e a variância teórica da AAS. Na PNAD Contínua, o DEFF para desemprego nacional é aproximadamente 1,5 — o conglomerado induz correlação intra-cluster que aumenta a variância estimada.
- Ex. 101.26ModelingAnswer key
Um banco quer estimar a inadimplência média em sua carteira de crédito de 500 mil clientes. A variabilidade de inadimplência varia muito por faixa de renda. Proponha um plano amostral eficiente e justifique a alocação de entrevistas por estrato.
Show solution
Amostragem estratificada com estratos por faixa de CEP (proxy de renda) e alocação ótima de Neyman: . Estratos com alta variância de renda recebem mais entrevistas, mesmo que menores. Isso minimiza a variância total do estimador para o mesmo custo. - Ex. 101.27Modeling
Um analista financeiro compara o retorno médio histórico de fundos de investimento ativos e conclui que gestores ativos superam o índice. Os dados incluem apenas fundos que ainda existem hoje. Identifique o viés e explique como ele afeta a conclusão.
Show solution
Viés de sobrevivência. Fundos que encerram operações (mau desempenho) desaparecem do banco de dados. Analisar apenas fundos ativos superestima sistematicamente o retorno médio histórico. A comparação correta exige incluir todos os fundos que existiam no período, incluindo os que fecharam. - Ex. 101.28Modeling
Mostre algebricamente que é não-viesado para . Por que o divisor é e não ?
Show solution
Mostre que com o divisor . O argumento central: e . O divisor corrige o viés que surgiria com .Show step-by-step (with the why)
- O estimador não-viesado da variância populacional é .
- Expanda: .
- Usando e , .
- Resultado: . O divisor (não ) é o que garante não-viés.
- Macete: O divisor "corrige" o fato de que está um pouco mais próximo dos dados do que — um grau de liberdade é "gasto" na estimativa da média.
- Ex. 101.29ChallengeAnswer key
Aplique a desigualdade de Hoeffding para : . Para , calcule o bound para e . Interprete o resultado.
Show solution
Para e , : . O bound é maior que 1, portanto não-informativo neste caso. Para : — agora garante menos de 1,4% de chance de erro maior que 5%. - Ex. 101.30Proof
Prove formalmente que a média amostral é (a) não-viesada e (b) consistente para , usando a desigualdade de Chebyshev para a parte (b).
Show solution
Prova do não-viés da média amostral: . Consistência: ; pela desigualdade de Chebyshev: para todo .
Fontes
- OpenIntro Statistics (4ª ed.) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA. Seções §1.3–1.4 (tipos de amostragem e vieses) e §4.1–4.2 (distribuição amostral).
- Statistics (OpenStax) — Illowsky, Dean · CC-BY. Capítulo 1 (introdução a amostragem) e Capítulo 7 (distribuição amostral e TCL).
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC. Capítulos 3–4 (viés amostral e distribuição amostral com simulações).