v1 · padrão canônico

Lição 101 — Amostragem: tipos, vieses e distribuição amostral

Amostragem aleatória simples, estratificada e por conglomerados. Vieses de seleção. Distribuição amostral da média e o Teorema Central do Limite.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

\bar X = \frac{1}{n}\sum_{i=1}^{n} X_i, \quad \mathrm{E}[\bar X] = \mu, \quad \mathrm{Var}(\bar X) = \frac{\sigma^2}{n}

Choose your door

Rigorous notation, full derivation, hypotheses

严格定义

结构：总体、样本和参数

"样本是总体的子集。统计量是从样本计算得到的数字。参数是汇总整个总体数据的数字。" — OpenStax Statistics, §1.1

抽样类型

"在分层抽样中，总体被分成称为层的组。然后从每个层中选择随机样本。" — OpenStax Statistics, §1.3

样本均值的分布

Theorem· 中心极限定理 (CLT)

设 $X_1, X_2, \ldots, X_n$ 独立同分布， $\mathrm{E}[X_i] = \mu$ 且 $\mathrm{Var}(X_i) = \sigma^2 < \infty$ 。则：

\frac{\bar X - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0,1) \quad \text{当 } n \to \infty

what this means · 标准化样本均值按分布收敛到标准正态分布。

等价地，对于大的 $n$ ： $\bar X \overset{\text{approx}}{\sim} \mathcal{N}\!\left(\mu,\, \sigma^2/n\right)$ 。

经验法则：对于近似对称的总体， $n \geq 30$ 足以；高度偏斜的总体（如收入或资产价格）可能需要更大的 $n$ 。

已解答的例子

Example— 101.2· 误差边界的样本量（中等）

问题。一名研究者想估计从事工作的中学生的比例，最大误差边界为3%，95%置信度。最小样本量是多少？

策略。使用保守公式 $n = z_{\alpha/2}^2/(4E^2)$ ，当 $p = 0{,}5$ （最不利情况）时。

解决。

$n = \frac{z_{\alpha/2}^2}{4E^2} = \frac{(1{,}960)^2}{4 \cdot (0{,}03)^2} = \frac{3{,}8416}{0{,}0036} \approx 1068$

向上舍入： $n = 1068$ 。

验证。用 $n = 1068$ 和 $p = 0{,}5$ ： $\mathrm{ME} = 1{,}96\sqrt{0{,}25/1068} = 1{,}96 \cdot 0{,}01531 \approx 0{,}030$ 。在3%限制内。

来源。OpenIntro Statistics, §5.2, Example 5.10 — CC-BY-SA。

Example— 101.3· CLT应用——样本均值的概率（中等）

问题。卫生中心门诊的等待时间平均 $\mu = 18$ 分钟，标准差 $\sigma = 6$ 分钟。收集 $n = 36$ 次就诊的样本。样本均值大于20分钟的概率是多少？

策略。根据CLT， $\bar X \approx \mathcal{N}(18,\, 36/36) = \mathcal{N}(18, 1)$ 。标准化并使用Z表。

解决。

$Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} = \frac{20 - 18}{6/\sqrt{36}} = \frac{2}{1} = 2{,}00$

$P(\bar X > 20) = P(Z > 2{,}00) = 1 - \Phi(2{,}00) = 1 - 0{,}9772 = 0{,}0228$

概率约为2.3%。

验证。值 $\bar X = 20$ 高于均值2个标准差：根据68-95-99.7规则，仅约2.5%的样本均值应落在 $\mu + 2\,\mathrm{SE}$ 以上。结果2.28%是一致的。

来源。OpenStax Statistics, §7.2, Example 7.3 — CC-BY。

Example— 101.4· 识别抽样偏差（概念）

问题。一家商业杂志进行在线调查，询问巴西税收制度的满意度，得到80%的负面回应。编辑声称："10名企业主中有8人对税收不满意"。识别存在的偏差。

策略。检查抽样过程的每一步：谁有权限，谁回应，谁被代表。

解决。

三个偏差累积：

选择偏差：在线调查排除了无数字接入的企业主（农村小企业、非正式微创业）。
无应答偏差：税收问题更能激发不满的人（满意者没有紧迫感回应）。
取样框架偏差：杂志读者是较大的企业或对管理特别感兴趣的——不代表所有"巴西企业主"。

结论：80%的估计系统地高估了普通人群中的不满意度。

验证。由访问员进行的有概率样本的IBGE/IBPT调查会产生不同的结果——方法上是防守的。

来源。OpenIntro Statistics, §1.4, Section "Sampling Bias" — CC-BY-SA。

Example— 101.5· 分层抽样：效率计算（高等）

问题。一家公司有3个部门：A（200名员工， $\sigma_A = 4$ k R $）、B（500名员工，$ \sigma_B = 2 $k R$ ）、C（300名员工， $\sigma_C = 6$ k R $）。预算为$ n = 100$ 次采访。比较SRS和比例分层在估计平均薪资时的方差。

策略。计算SRS的方差和分层抽样的方差（比例分配）。

解决。

总体方差： $\sigma^2 = \sum (N_k/N)\sigma_k^2$ （近似——为简化忽略层均值方差）：

比例分配： $n_A = 20$ 、 $n_B = 50$ 、 $n_C = 30$ 。

$\mathrm{Var}(\bar X_{\text{est}}) = \sum_{k} \left(\frac{N_k}{N}\right)^2 \frac{\sigma_k^2}{n_k}$

$= \left(\frac{200}{1000}\right)^2\frac{16}{20} + \left(\frac{500}{1000}\right)^2\frac{4}{50} + \left(\frac{300}{1000}\right)^2\frac{36}{30}$

$= 0{,}04 \cdot 0{,}8 + 0{,}25 \cdot 0{,}08 + 0{,}09 \cdot 1{,}2 = 0{,}032 + 0{,}020 + 0{,}108 = 0{,}160$

分层标准误： $\sqrt{0{,}160} \approx 0{,}40$ k R$。

相比之下，简单SRS有 $n = 100$ 和总体方差约 $\sigma^2 \approx (200 \cdot 16 + 500 \cdot 4 + 300 \cdot 36)/1000 = (3200 + 2000 + 10800)/1000 = 16$ 会给出 $\mathrm{Var}(\bar X_{\text{SRS}}) = 16/100 = 0{,}160$ 。在这个案例中，比例分配数值上与SRS一致——效率增益来自层均值相差很大时。

验证。结果确认了理论：用比例分配和不同层方差，分层至少与SRS一样有效。

来源。OpenIntro Statistics, §1.4, Exercise 1.35 — CC-BY-SA。

Exercise list

30 exercises · 7 with worked solution (25%)

Application 20Understanding 4Modeling 4Challenge 1Proof 1

Ex. 101.1Application
一家工厂生产螺栓，平均重量 $\mu$ 和标准差 $\sigma = 50$ 克。收集 $n = 100$ 个螺栓的样本。计算样本均值的标准误。
Solve online
Ex. 101.2Application
一项调查开始时 $n = 25$ 。你需要增加 $n$ 多少倍才能使标准误减半？使用公式解释。
Solve online
Ex. 101.3ApplicationAnswer key
银行分行的等待时间服从正态分布， $\mu = 120$ 秒， $\sigma = 15$ 秒。收集 $n = 9$ 位客户的样本。 $\bar X > 125$ 秒的概率是多少？
Solve online
Ex. 101.4Application
一家医院想估计患者对医疗服务的满意度。院长知道性别和年龄段对感知有很大影响。哪种抽样类型最合适？证明理由。
Solve online
Ex. 101.5Application
网店在每次购买后发送电子邮件请求评价。仅有12%的客户回应。识别最可能的偏差类型并解释其对估计的影响。
Solve online
Ex. 101.6Application
一项调查想估计农村地区有互联网接入的住户比例，误差边界为4%，95%置信度。最小样本量是多少？
Solve online
Ex. 101.7Application
一位顾问分析了50家5年前成立且仍在运营的初创公司的增长，得出结论"初创公司平均每年增长120%"。存在什么偏差？
Solve online
Ex. 101.8Application
证明样本均值 $\bar X$ 是（a）无偏、（b）一致和（c）有效的 $\mu$ 估计量，在线性估计量的类中。
Solve online
Ex. 101.9Application
关于公共交通支出的研究收集 $n = 400$ 条记录。历史标准差为 $\sigma = R\$ ,40$。计算标准误并解释其意义。
Solve online
Ex. 101.10Application
IBGE想估计巴西公司的平均收入。描述SRS、按部门分层和按整群的抽样如何进行。哪个会更有效？为什么？
Solve online
Ex. 101.11UnderstandingAnswer key
对于固定 $n$ 和iid总体的样本均值 $\bar X$ ，哪个陈述是正确的？
Solve online
Ex. 101.12UnderstandingAnswer key
为什么，在许多实际调查中，样本均值有近似正态分布，即使不知道总体的确切分布？
Solve online
Ex. 101.13Understanding
声明："在简单随机抽样中，每个个体有相同的被选中概率。这等价于说每个 $n$ 个个体的集合有相同的概率成为样本。"这个声明正确吗？
Solve online
Ex. 101.14Application
考试的历史平均分为 $\mu = 3{,}5$ ，标准差 $\sigma = 1{,}5$ 。对于 $n = 36$ 的班级，班级平均分小于3.2的概率是多少？
Solve online
Ex. 101.15Application
IBGE需要估计巴西所有市镇的基本卫生设施接入情况，预算有限。虽然没有住户清单，但有市镇和街道清单。提议一个抽样计划。
Solve online
Ex. 101.16Application
一项有 $n = 400$ 名选民的调查发现 $\hat p = 60\%$ 的市政府批准率。计算标准误和95%置信度的误差边界。
Solve online
Ex. 101.17ApplicationAnswer key
计算估计比例的最小样本量，误差边界为(a) 5%和(b) 2.5%，均为95%置信度。解释结果之间的关系。
Solve online
Ex. 101.18Application
一家公司有3000个按合同号码排序的客户。想为调查选择300个。描述系统抽样的程序并讨论何时可能引入偏差。
Solve online
Ex. 101.19Application
大米袋的重量有 $\mu = 70$ 公斤和 $\sigma = 10$ 公斤。对于 $n = 64$ 的样本，计算 $P(68 \leq \bar X \leq 72)$ 。
Solve online
Ex. 101.20Understanding
一所大学对目前在读学生进行满意度调查。在这种方法中最相关的偏差是什么？
Solve online
Ex. 101.21Application
不了解 $p$ 的先验知识，估计95%置信、误差边界为2%的比例的最小样本量是多少？
Solve online
Ex. 101.22Application
一名研究者在工作日9时至17时敲门采访市民居民，想估计平均家庭收入。识别偏差并描述其方向（是低估还是高估平均收入？）。
Solve online
Ex. 101.23ApplicationAnswer key
医生咨询的时间有 $\sigma = 12$ 分钟。计算 $n = 25$ 和 $n = 100$ 时均值的标准误，并比较。
Solve online
Ex. 101.24Application
一个城市的月用电量有 $\mu = 500$ 度电和 $\sigma = 80$ 度电。对于 $n = 100$ 个随机抽取的住户，计算 $P(\bar X > 510)$ 。
Solve online
Ex. 101.25Modeling
IBGE在PNAD连续调查中使用约21.1万住户。全国失业率约为12%。(a) 以 $\pm 0{,}5\%$ 误差边界、95%置信度估计失业率的理论最小 $n$ 是多少？(b) 为什么IBGE使用大得多的 $n$ ？
Solve online
Ex. 101.26ModelingAnswer key
一家银行想估计其50万客户信用组合中的平均逾期率。不履约变异在收入水平间差异很大。提议一个高效的抽样计划并证明按层分配。
Solve online
Ex. 101.27Modeling
一位财务分析师比较历史平均收益率的活跃投资基金，得出主动经理人跑赢指数的结论。数据仅包括至今仍存在的基金。识别偏差并解释它如何影响结论。
Solve online
Ex. 101.28Modeling
代数证明 $S^2 = \frac{1}{n-1}\sum(X_i - \bar X)^2$ 是 $\sigma^2$ 的无偏估计量。为什么分母是 $n-1$ 而不是 $n$ ？
Solve online
Ex. 101.29ChallengeAnswer key
对 $X_i \in [0, 1]$ 应用Hoeffding不等式： $P(|\bar X - \mu| > t) \leq 2\exp(-2nt^2)$ 。对于 $t = 0{,}05$ ，计算 $n = 100$ 和 $n = 1000$ 的界。解释结果。
Solve online
Ex. 101.30Proof
形式化证明样本均值 $\bar X = \frac{1}{n}\sum X_i$ 是 $\mu$ 的（a）无偏和（b）一致估计量，对部分(b)使用Chebyshev不等式。
Solve online

来源

OpenIntro Statistics（第4版） — Diez, Çetinkaya-Rundel, Barr · CC-BY-SA。章节 §1.3–1.4（抽样类型和偏差）和 §4.1–4.2（样本分布）。
Statistics（OpenStax） — Illowsky, Dean · CC-BY。第1章（抽样介绍）和第7章（样本分布和CLT）。
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC。第3–4章（抽样偏差和样本分布及模拟）。