Math ClubMath Club
v1 · padrão canônico

Lição 101 — Amostragem: tipos, vieses e distribuição amostral

Amostragem aleatória simples, estratificada e por conglomerados. Vieses de seleção. Distribuição amostral da média e o Teorema Central do Limite.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

Xˉ=1ni=1nXi,E[Xˉ]=μ,Var(Xˉ)=σ2n\bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \mathrm{E}[\bar X] = \mu, \quad \mathrm{Var}(\bar X) = \frac{\sigma^2}{n}
Choose your door

Rigorous notation, full derivation, hypotheses

严格定义

结构:总体、样本和参数

"样本是总体的子集。统计量是从样本计算得到的数字。参数是汇总整个总体数据的数字。" — OpenStax Statistics, §1.1

抽样类型

"在分层抽样中,总体被分成称为层的组。然后从每个层中选择随机样本。" — OpenStax Statistics, §1.3

估计量的理想性质

样本均值的分布

常见偏差

选择无应答自选择幸存者偏差在线调查:排除无互联网者回应者异于非回应者志愿者不同于总体仅分析幸存者所有情况都产生系统偏差的估计

四个经典抽样偏差来源。每一个都使样本不能代表目标总体。

已解答的例子

Exercise list

30 exercises · 7 with worked solution (25%)

Application 20Understanding 4Modeling 4Challenge 1Proof 1
  1. Ex. 101.1Application

    一家工厂生产螺栓,平均重量 μ\mu 和标准差 σ=50\sigma = 50 克。收集 n=100n = 100 个螺栓的样本。计算样本均值的标准误。

  2. Ex. 101.2Application

    一项调查开始时 n=25n = 25。你需要增加 nn 多少倍才能使标准误减半?使用公式解释。

  3. Ex. 101.3ApplicationAnswer key

    银行分行的等待时间服从正态分布,μ=120\mu = 120 秒,σ=15\sigma = 15 秒。收集 n=9n = 9 位客户的样本。 Xˉ>125\bar X > 125 秒的概率是多少?

  4. Ex. 101.4Application

    一家医院想估计患者对医疗服务的满意度。院长知道性别和年龄段对感知有很大影响。哪种抽样类型最合适?证明理由。

  5. Ex. 101.5Application

    网店在每次购买后发送电子邮件请求评价。仅有12%的客户回应。识别最可能的偏差类型并解释其对估计的影响。

  6. Ex. 101.6Application

    一项调查想估计农村地区有互联网接入的住户比例,误差边界为4%,95%置信度。最小样本量是多少?

  7. Ex. 101.7Application

    一位顾问分析了50家5年前成立且仍在运营的初创公司的增长,得出结论"初创公司平均每年增长120%"。存在什么偏差?

  8. Ex. 101.8Application

    证明样本均值 Xˉ\bar X 是(a)无偏、(b)一致和(c)有效的 μ\mu 估计量,在线性估计量的类中。

  9. Ex. 101.9Application

    关于公共交通支出的研究收集 n=400n = 400 条记录。历史标准差为 \sigma = R\,40$。计算标准误并解释其意义。

  10. Ex. 101.10Application

    IBGE想估计巴西公司的平均收入。描述SRS、按部门分层和按整群的抽样如何进行。哪个会更有效?为什么?

  11. Ex. 101.11UnderstandingAnswer key

    对于固定 nn 和iid总体的样本均值 Xˉ\bar X,哪个陈述是正确的?

  12. Ex. 101.12UnderstandingAnswer key

    为什么,在许多实际调查中,样本均值有近似正态分布,即使不知道总体的确切分布?

  13. Ex. 101.13Understanding

    声明:"在简单随机抽样中,每个个体有相同的被选中概率。这等价于说每个 nn 个个体的集合有相同的概率成为样本。"这个声明正确吗?

  14. Ex. 101.14Application

    考试的历史平均分为 μ=3,5\mu = 3{,}5,标准差 σ=1,5\sigma = 1{,}5。对于 n=36n = 36 的班级,班级平均分小于3.2的概率是多少?

  15. Ex. 101.15Application

    IBGE需要估计巴西所有市镇的基本卫生设施接入情况,预算有限。虽然没有住户清单,但有市镇和街道清单。提议一个抽样计划。

  16. Ex. 101.16Application

    一项有 n=400n = 400 名选民的调查发现 p^=60%\hat p = 60\% 的市政府批准率。计算标准误和95%置信度的误差边界。

  17. Ex. 101.17ApplicationAnswer key

    计算估计比例的最小样本量,误差边界为(a) 5%和(b) 2.5%,均为95%置信度。解释结果之间的关系。

  18. Ex. 101.18Application

    一家公司有3000个按合同号码排序的客户。想为调查选择300个。描述系统抽样的程序并讨论何时可能引入偏差。

  19. Ex. 101.19Application

    大米袋的重量有 μ=70\mu = 70 公斤和 σ=10\sigma = 10 公斤。对于 n=64n = 64 的样本,计算 P(68Xˉ72)P(68 \leq \bar X \leq 72)

  20. Ex. 101.20Understanding

    一所大学对目前在读学生进行满意度调查。在这种方法中最相关的偏差是什么?

  21. Ex. 101.21Application

    不了解 pp 的先验知识,估计95%置信、误差边界为2%的比例的最小样本量是多少?

  22. Ex. 101.22Application

    一名研究者在工作日9时至17时敲门采访市民居民,想估计平均家庭收入。识别偏差并描述其方向(是低估还是高估平均收入?)。

  23. Ex. 101.23ApplicationAnswer key

    医生咨询的时间有 σ=12\sigma = 12 分钟。计算 n=25n = 25n=100n = 100 时均值的标准误,并比较。

  24. Ex. 101.24Application

    一个城市的月用电量有 μ=500\mu = 500 度电和 σ=80\sigma = 80 度电。对于 n=100n = 100 个随机抽取的住户,计算 P(Xˉ>510)P(\bar X > 510)

  25. Ex. 101.25Modeling

    IBGE在PNAD连续调查中使用约21.1万住户。全国失业率约为12%。(a) 以 ±0,5%\pm 0{,}5\% 误差边界、95%置信度估计失业率的理论最小 nn 是多少?(b) 为什么IBGE使用大得多的 nn

  26. Ex. 101.26ModelingAnswer key

    一家银行想估计其50万客户信用组合中的平均逾期率。不履约变异在收入水平间差异很大。提议一个高效的抽样计划并证明按层分配。

  27. Ex. 101.27Modeling

    一位财务分析师比较历史平均收益率的活跃投资基金,得出主动经理人跑赢指数的结论。数据仅包括至今仍存在的基金。识别偏差并解释它如何影响结论。

  28. Ex. 101.28Modeling

    代数证明 S2=1n1(XiXˉ)2S^2 = \frac{1}{n-1}\sum(X_i - \bar X)^2σ2\sigma^2 的无偏估计量。为什么分母是 n1n-1 而不是 nn

  29. Ex. 101.29ChallengeAnswer key

    Xi[0,1]X_i \in [0, 1] 应用Hoeffding不等式:P(Xˉμ>t)2exp(2nt2)P(|\bar X - \mu| > t) \leq 2\exp(-2nt^2)。对于 t=0,05t = 0{,}05,计算 n=100n = 100n=1000n = 1000 的界。解释结果。

  30. Ex. 101.30Proof

    形式化证明样本均值 Xˉ=1nXi\bar X = \frac{1}{n}\sum X_iμ\mu 的(a)无偏和(b)一致估计量,对部分(b)使用Chebyshev不等式。

来源

Updated on 2026-05-06 · Author(s): Clube da Matemática

Found an error? Open an issue on GitHub or submit a PR — open source forever.