Lição 101 — Amostragem: tipos, vieses e distribuição amostral
Amostragem aleatória simples, estratificada e por conglomerados. Vieses de seleção. Distribuição amostral da média e o Teorema Central do Limite.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense
Rigorous notation, full derivation, hypotheses
严格定义
结构:总体、样本和参数
"样本是总体的子集。统计量是从样本计算得到的数字。参数是汇总整个总体数据的数字。" — OpenStax Statistics, §1.1
抽样类型
"在分层抽样中,总体被分成称为层的组。然后从每个层中选择随机样本。" — OpenStax Statistics, §1.3
估计量的理想性质
样本均值的分布
常见偏差
四个经典抽样偏差来源。每一个都使样本不能代表目标总体。
已解答的例子
Exercise list
30 exercises · 7 with worked solution (25%)
- Ex. 101.1Application
一家工厂生产螺栓,平均重量 和标准差 克。收集 个螺栓的样本。计算样本均值的标准误。
- Ex. 101.2Application
一项调查开始时 。你需要增加 多少倍才能使标准误减半?使用公式解释。
- Ex. 101.3ApplicationAnswer key
银行分行的等待时间服从正态分布, 秒, 秒。收集 位客户的样本。 秒的概率是多少?
- Ex. 101.4Application
一家医院想估计患者对医疗服务的满意度。院长知道性别和年龄段对感知有很大影响。哪种抽样类型最合适?证明理由。
- Ex. 101.5Application
网店在每次购买后发送电子邮件请求评价。仅有12%的客户回应。识别最可能的偏差类型并解释其对估计的影响。
- Ex. 101.6Application
一项调查想估计农村地区有互联网接入的住户比例,误差边界为4%,95%置信度。最小样本量是多少?
- Ex. 101.7Application
一位顾问分析了50家5年前成立且仍在运营的初创公司的增长,得出结论"初创公司平均每年增长120%"。存在什么偏差?
- Ex. 101.8Application
证明样本均值 是(a)无偏、(b)一致和(c)有效的 估计量,在线性估计量的类中。
- Ex. 101.9Application
关于公共交通支出的研究收集 条记录。历史标准差为 \sigma = R\,40$。计算标准误并解释其意义。
- Ex. 101.10Application
IBGE想估计巴西公司的平均收入。描述SRS、按部门分层和按整群的抽样如何进行。哪个会更有效?为什么?
- Ex. 101.11UnderstandingAnswer key
对于固定 和iid总体的样本均值 ,哪个陈述是正确的?
- Ex. 101.12UnderstandingAnswer key
为什么,在许多实际调查中,样本均值有近似正态分布,即使不知道总体的确切分布?
- Ex. 101.13Understanding
声明:"在简单随机抽样中,每个个体有相同的被选中概率。这等价于说每个 个个体的集合有相同的概率成为样本。"这个声明正确吗?
- Ex. 101.14Application
考试的历史平均分为 ,标准差 。对于 的班级,班级平均分小于3.2的概率是多少?
- Ex. 101.15Application
IBGE需要估计巴西所有市镇的基本卫生设施接入情况,预算有限。虽然没有住户清单,但有市镇和街道清单。提议一个抽样计划。
- Ex. 101.16Application
一项有 名选民的调查发现 的市政府批准率。计算标准误和95%置信度的误差边界。
- Ex. 101.17ApplicationAnswer key
计算估计比例的最小样本量,误差边界为(a) 5%和(b) 2.5%,均为95%置信度。解释结果之间的关系。
- Ex. 101.18Application
一家公司有3000个按合同号码排序的客户。想为调查选择300个。描述系统抽样的程序并讨论何时可能引入偏差。
- Ex. 101.19Application
大米袋的重量有 公斤和 公斤。对于 的样本,计算 。
- Ex. 101.20Understanding
一所大学对目前在读学生进行满意度调查。在这种方法中最相关的偏差是什么?
- Ex. 101.21Application
不了解 的先验知识,估计95%置信、误差边界为2%的比例的最小样本量是多少?
- Ex. 101.22Application
一名研究者在工作日9时至17时敲门采访市民居民,想估计平均家庭收入。识别偏差并描述其方向(是低估还是高估平均收入?)。
- Ex. 101.23ApplicationAnswer key
医生咨询的时间有 分钟。计算 和 时均值的标准误,并比较。
- Ex. 101.24Application
一个城市的月用电量有 度电和 度电。对于 个随机抽取的住户,计算 。
- Ex. 101.25Modeling
IBGE在PNAD连续调查中使用约21.1万住户。全国失业率约为12%。(a) 以 误差边界、95%置信度估计失业率的理论最小 是多少?(b) 为什么IBGE使用大得多的 ?
- Ex. 101.26ModelingAnswer key
一家银行想估计其50万客户信用组合中的平均逾期率。不履约变异在收入水平间差异很大。提议一个高效的抽样计划并证明按层分配。
- Ex. 101.27Modeling
一位财务分析师比较历史平均收益率的活跃投资基金,得出主动经理人跑赢指数的结论。数据仅包括至今仍存在的基金。识别偏差并解释它如何影响结论。
- Ex. 101.28Modeling
代数证明 是 的无偏估计量。为什么分母是 而不是 ?
- Ex. 101.29ChallengeAnswer key
对 应用Hoeffding不等式:。对于 ,计算 和 的界。解释结果。
- Ex. 101.30Proof
形式化证明样本均值 是 的(a)无偏和(b)一致估计量,对部分(b)使用Chebyshev不等式。
来源
- OpenIntro Statistics(第4版) — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA。章节 §1.3–1.4(抽样类型和偏差)和 §4.1–4.2(样本分布)。
- Statistics(OpenStax) — Illowsky, Dean · CC-BY。第1章(抽样介绍)和第7章(样本分布和CLT)。
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC。第3–4章(抽样偏差和样本分布及模拟)。