v1 · padrão canônico

Lição 110 — Consolidação Trim 11: Inferência Estatística

Workshop de síntese do trim 11: IC para média, testes z e t, ANOVA, qui-quadrado, regressão simples e múltipla, e inferência bayesiana — todos os pilares da estatística inferencial em um mapa integrado.

Used in: 3.º ano do EM / Stochastik LK alemão · Math B japonês (Estatística) · H2 Mathematics (Singapura) — Statistics

\hat\theta \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}};\quad T = \frac{\bar X - \mu_0}{s/\sqrt{n}};\quad P(\theta \mid D) \propto P(D \mid \theta)\,P(\theta)

Choose your door

Rigorous notation, full derivation, hypotheses

第11三学期的正式综合

统计推断的三个支柱

Definition· 支柱1——置信区间估计

设 $X_1, \ldots, X_n \overset{iid}{\sim} N(\mu, \sigma^2)$ 。

均值的双侧置信水平 $1-\alpha$ 置信区间（ $\sigma$ 已知）：

\bar X \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}

what this means · 已知总体标准差的均值置信区间。

$\sigma$ 未知时的置信区间——使用 t 分布，自由度为 $n-1$ ：

\bar X \pm t_{\alpha/2;\,n-1}\frac{s}{\sqrt{n}}

what this means · 使用样本标准差的均值置信区间（更常见的实际应用）。

样本量 以获得最大误差界 $E$ ：

n \geq \left(\frac{z_{\alpha/2}\,\sigma}{E}\right)^2

what this means · 样本量公式：z的平方乘以西格玛，除以E的平方。

"置信区间为总体参数提供了一个合理的值域。正确的解释：如果多次重复该程序，构建的区间中有 $(1-\alpha)100\%$ 将包含真实参数。" — OpenIntro Statistics §5.2

Definition· 支柱2——假设检验（统一视角）

所有假设检验都遵循相同的框架：

陈述 $H_0$ 和 $H_1$ 。
计算 $H_0$ 下的检验统计量。
计算 p值 = $P(\text{结果至少与观察结果一样极端} \mid H_0)$ 。
如果 $p \leq \alpha$ ，拒绝 $H_0$ 。

检验地图：

场景	统计量	分布
1个均值， $\sigma$ 已知	$Z = (\bar X - \mu_0)/(\sigma/\sqrt{n})$	$N(0,1)$
1个均值， $\sigma$ 未知	$T = (\bar X - \mu_0)/(s/\sqrt{n})$	$t_{n-1}$
2个独立均值	Welch $T$	$t_{\nu}$ （Welch 自由度）
$k$ 个均值	$F = MS_B/MS_W$	$F_{k-1,\,N-k}$
列联表	$\chi^2 = \sum (O-E)^2/E$	$\chi^2_{(r-1)(c-1)}$
比例vs参考值	$Z = (\hat p - p_0)/\sqrt{p_0(1-p_0)/n}$	$N(0,1)$

Definition· 支柱3——回归与预测建模

简单线性回归 $\hat Y = \hat\beta_0 + \hat\beta_1 X$ ：

\hat\beta_1 = \frac{S_{xy}}{S_{xx}},\quad \hat\beta_0 = \bar Y - \hat\beta_1 \bar X

what this means · 简单回归的普通最小二乘估计量。

多元回归 $\hat{\mathbf{y}} = X\hat{\boldsymbol\beta}$ ：

\hat{\boldsymbol\beta} = (X^\top X)^{-1} X^\top \mathbf{y}

what this means · 多元回归的向量最小二乘估计量。

决定系数及其调整版本：

R^2_{\text{adj}} = 1 - \frac{(1-R^2)(n-1)}{n-p-1}

what this means · 调整R平方对额外预测变量进行惩罚，这些变量对拟合没有贡献。

第11三学期决策流程——每个统计问题都有相应的方法。

已解决的例子

Example— 1· ENEM平均成绩的95%置信区间（标准差未知）

问题。 2023年ENEM数学科目的 $n = 36$ 名考生样本平均分 $\bar X = 580$ 分，样本标准差 $s = 90$ 分。为总体平均分 $\mu$ 构建95%置信区间。

策略。 因为 $\sigma$ 未知，使用 $n - 1 = 35$ 自由度的 $t$ 分布。从表中找 $t_{0,025;\,35}$ 。

解决。

$t_{0,025;\,35} = 2{,}030$ 。

误差界： $E = 2{,}030 \times \frac{90}{\sqrt{36}} = 2{,}030 \times 15 = 30{,}45$ 。

95%置信区间： $(580 - 30{,}45\;;\; 580 + 30{,}45) = (549{,}55\;;\; 610{,}45)$ 。

验证。 误差界随 $s$ 增加而增加，随 $\sqrt{n}$ 增加而减少。对于 $n = 144$ ，误差界为 $2{,}030 \times 90/12 = 15{,}2$ ——一半，因为 $n$ 增加了四倍。

来源。 OpenIntro Statistics §5.2 — 练习 5.5，第222页 · CC-BY-SA。

Example— 2· 单样本t检验与政府目标的比较

问题。 政府声称UBS平均就诊时间为 $\mu_0 = 20$ 分钟。一次审计抽样 $n = 25$ 次就诊： $\bar X = 24{,}8$ 分钟， $s = 7{,}2$ 分钟。在 $\alpha = 5\%$ 水平上，有证据证明真实平均值超过20分钟吗？

策略。 单侧右尾t检验（ $H_1: \mu > 20$ ）， $df = 24$ 。

解决。

$T = \frac{24{,}8 - 20}{7{,}2/\sqrt{25}} = \frac{4{,}8}{1{,}44} = 3{,}33$ 。

$t_{0,05;\,24} = 1{,}711$ （单侧）。因为 $3{,}33 > 1{,}711$ ，拒绝 $H_0$ 。

p值： $P(t_{24} \geq 3{,}33) \approx 0{,}001 < 0{,}05$ 。有证据证明平均时间超过20分钟。

验证。 95%单侧置信区间下界： $24{,}8 - 1{,}711 \times 1{,}44 = 22{,}33$ 分钟。值 $\mu_0 = 20$ 在此限制下，确认拒绝。

来源。 Statistics, OpenStax §9.4 — 改编自例9.10，第476页 · CC-BY。

Example— 3· 单因素方差分析——3种肥料的产量

问题。 三种肥料在 $n_i = 10$ 株植物的组中进行了测试。产量（kg）： $\bar X_1 = 12{,}0$ ， $\bar X_2 = 14{,}5$ ， $\bar X_3 = 13{,}2$ 。总平均 $\bar X = 13{,}23$ 。 $SS_W = 162$ （组内平方和）。在5%水平上，肥料之间有差异吗？

策略。 方差分析：计算 $SS_B$ ，获得 $F$ ，与 $F_{0,05;\,2,\,27}$ 比较。

解决。

$SS_B = 10[(12{,}0 - 13{,}23)^2 + (14{,}5 - 13{,}23)^2 + (13{,}2 - 13{,}23)^2]$ $= 10[1{,}513 + 1{,}613 + 0{,}001] = 31{,}27$ 。

$MS_B = 31{,}27/2 = 15{,}64$ ； $MS_W = 162/27 = 6{,}00$ 。

$F = 15{,}64 / 6{,}00 = 2{,}61$ 。

$F_{0,05;\,2,\,27} \approx 3{,}35$ 。因为 $2{,}61 < 3{,}35$ ，不拒绝 $H_0$ ——在5%水平上没有证据表明肥料之间有差异。

验证。 p值 $\approx 0{,}092 > 0{,}05$ 。结果一致。如果每组 $n_i = 20$ ，功效会更大，可能会有拒绝。

来源。 OpenIntro Statistics §7.5 — 基于方差分析例，第319页 · CC-BY-SA。

Example— 4· 简单线性回归——薪资对工作经验

问题。 以 $n = 20$ 名专业人员为例： $\bar X = 8$ 年，平均薪资 R$ 6.200（ $\bar Y = 6.200$ ）， $S_{xx} = 180$ ， $S_{xy} = 54.000$ 。拟合回归模型并解释系数。

策略。 用最小二乘公式计算 $\hat\beta_1$ 和 $\hat\beta_0$ ；在背景中解释。

解决。

$\hat\beta_1 = S_{xy}/S_{xx} = 54.000/180 = 300$ 。

$\hat\beta_0 = \bar Y - \hat\beta_1 \bar X = 6.200 - 300 \times 8 = 3.800$ 。

模型： $\hat Y = 3.800 + 300\,X$ （单位：雷亚尔， $X$ 单位：年）。

解释。 每增加一年工作经验，平均薪资增加 R$ 300。截距 R$ 3.800 是0年经验时的估计薪资（外推——谨慎使用）。

验证。 对于 $X = 10$ 年： $\hat Y = 3.800 + 3.000 = 6.800$ 雷亚尔（R$ 6.800）。鉴于 $\bar Y = 6.200$ 当 $\bar X = 8$ ，是合理的。

来源。 OpenIntro Statistics §8.2 — 基于练习 8.13（薪资数据），第360页 · CC-BY-SA。

Example— 5· 贝叶斯更新——生产线上的缺陷比例

问题。 一位质量工程师相信生产线的缺陷比例 $\theta$ 先验为 $\text{Beta}(3, 17)$ （先验平均 $= 3/20 = 15\%$ ）。检查 $n = 40$ 个零件并发现 $X = 4$ 个缺陷。后验分布是什么？对 $\theta$ 的新点估计是什么？

策略。 使用Beta-Binomial共轭：后验 $= \text{Beta}(\alpha + X, \beta + n - X)$ 。

解决。

后验： $\text{Beta}(3 + 4,\; 17 + 40 - 4) = \text{Beta}(7, 53)$ 。

后验平均： $7/(7+53) = 7/60 \approx 11{,}7\%$ 。

95%可信区间： $\text{Beta}(7, 53)$ 的2.5%和97.5%分位数，约 $[0{,}049;\; 0{,}221]$ 。

验证。 之前：先验平均15%。看到40个中的4个缺陷后（最大似然估计=10%），后验转移到11.7%——先验和数据的加权平均。随着样本量增加，后验越来越接近最大似然估计。

来源。 Statistical Thinking for the 21st Century, Ch. 15 — Beta-Binomial例的结构，§15.3 · CC-BY-NC。

Exercise list

42 exercises · 10 with worked solution (25%)

Application 17Understanding 14Modeling 5Challenge 2Proof 4

Ex. 110.1Application
$n = 64$ ， $\bar x = 50$ ， $\sigma = 8$ （已知）。为 $\mu$ 构建95%置信区间。
Solve online
Ex. 110.2Application
用上一个练习的数据（ $\bar x = 50$ ， $s = 8$ ， $n = 64$ ），检验 $H_0: \mu = 48$ vs $H_1: \mu \neq 48$ 在5%水平上。计算 $T$ 并做决定。
Solve online
Ex. 110.3ApplicationAnswer key
两个独立样本： $\bar x_1 = 100$ ， $s_1 = 10$ ， $n_1 = 50$ ； $\bar x_2 = 95$ ， $s_2 = 12$ ， $n_2 = 60$ 。在5%水平上执行双侧Welch t检验。
Solve online
Ex. 110.4Application
三个组各 $n_i = 20$ 株植物，平均 $\bar X_1 = 10$ ， $\bar X_2 = 12$ ， $\bar X_3 = 14$ 。假设 $\sigma^2 = 4$ （组内方差），计算方差分析的 $F$ 并在5%水平上做决定。
Solve online
Ex. 110.5ApplicationAnswer key
拟合模型： $\hat Y = 5 + 2X$ 。对 $X = 10$ 的点预测是多少？
Solve online
Ex. 110.6ApplicationAnswer key
$R^2 = 0{,}8$ ， $n = 50$ ， $p = 4$ 个预测变量。计算 $R^2_{\text{adj}}$ 。
Solve online
Ex. 110.7Application
列联表 $2 \times 3$ 产生 $\chi^2 = 8$ 。自由度有多少个？在5%水平上有关联吗？
Solve online
Ex. 110.8Application
先验 $\theta \sim \text{Beta}(2, 2)$ 。观察 $X = 8$ 次成功在 $n = 10$ 次试验中。 $\theta$ 的后验分布是什么？
Solve online
Ex. 110.9Application
用上一个练习的后验 $\text{Beta}(10, 4)$ ，计算后验平均和MAP（后验分布的众数）。
Solve online
Ex. 110.10ApplicationAnswer key
从标准正态分布表中找： $z_{0,025}$ 是多少？（答： $1{,}960$ 。）
Solve online
Ex. 110.11Application
从 t 表中找： $t_{0,025;\,19}$ 。（答： $2{,}093$ 。）
Solve online
Ex. 110.12ApplicationAnswer key
从F表中找 $F_{0,05;\,2,\,27}$ 。（答： ${\approx}\,3{,}35$ 。）
Solve online
Ex. 110.13Application
找 $\chi^2_{0,05;\,4}$ 。（答： $9{,}488$ 。）
Solve online
Ex. 110.14Understanding
哪个检验适合比较公司中男性和女性的平均薪资，样本独立，方差未知？
Solve online
Ex. 110.15Understanding
调查有100个人，记录性别（男/女）和偏好政党（A/B/C）。哪个检验验证变量间的关联？
Solve online
Ex. 110.16Understanding
一项研究测试4种药物剂量（低、中、高、安慰剂）对20个患者/组的体重减轻（kg）的影响。分析方法是什么？
Solve online
Ex. 110.17Understanding
测量20个人的体重在3个月节食前后。数据是配对的。正确的检验是什么？
Solve online
Ex. 110.18Application
在双侧检验中得到统计量 $Z = 2{,}1$ 。计算p值并在 $\alpha = 5\%$ 水平上做决定。
Solve online
Ex. 110.19ApplicationAnswer key
对于95%置信区间，误差界 $E = 2$ 和 $\sigma = 10$ ，最小样本量是多少？
Solve online
Ex. 110.20Understanding
Cohen的 $d = 0{,}5$ 。按Cohen惯例，效应量大小是多少？
Solve online
Ex. 110.21Application
列联表产生Cramér的 $V = 0{,}25$ 。分类效应量。
Solve online
Ex. 110.22Application
方差分析产生 $\eta^2 = 0{,}10$ 。效应量大小是多少？
Solve online
Ex. 110.23Understanding
$BF_{10} = 5$ 。按Jeffreys量表，这代表对 $H_1$ 的什么样强度的证据？
Solve online
Ex. 110.24Understanding
各用一句话：频率论置信区间（95%）和贝叶斯可信区间（95%）的解释有什么区别？
Solve online
Ex. 110.25Understanding
在一个假设检验中，用一句话区分第一类错误与第二类错误。
Solve online
Ex. 110.26Understanding
区分：统计显著性与实际显著性。为什么一个结果可能在统计上显著但实际上无关？
Solve online
Ex. 110.27UnderstandingAnswer key
区分：统计关联与因果关系。为什么线性回归衡量关联而不是原因？
Solve online
Ex. 110.28Understanding
区分：配对数据与独立样本。各举一个例子。
Solve online
Ex. 110.29Understanding
在多元回归中区分： $R^2$ 与 $R^2_{\text{adj}}$ 。为什么第二个对于比较预测变量数量不同的模型更可靠？
Solve online
Ex. 110.30Understanding
在贝叶斯推断中，区分：先验分布与后验分布。
Solve online
Ex. 110.31ModelingAnswer key
A/B测试：版本A在1000名访客中获得80次转化；版本B获得110/1000。应用比例差异的z检验（频率论）并用先验 $\text{Beta}(1,1)$ 估计 $P(\theta_B > \theta_A)$ 的贝叶斯方法。
Solve online
Ex. 110.32Modeling
临床试验：药物降低血压。对 $n = 64$ 名患者，配对差值（用药前 $-$ 用药后）有 $\bar D = 7$ mmHg 和 $s_D = 5$ mmHg。进行配对t检验（单侧： $H_1: \mu_D > 0$ ）并为平均减少量构建95%置信区间。
Solve online
Ex. 110.33Modeling
房产价格回归：仅用 $m^2$ 的模型有 $R^2 = 0{,}70$ （ $n = 200$ ）。添加卧室数后， $R^2 = 0{,}78$ 。计算每个模型的 $R^2_{\text{adj}}$ 并决定额外预测变量是否合理。
Solve online
Ex. 110.34Modeling
五种饮食，每种30个人。概述完整分析协议：假设检验、方差分析、事后分析和所有要报告的内容。
Solve online
Ex. 110.35ModelingAnswer key
选举调查：4个地区（北、东北、东南、南） $\times$ 3名候选人。列联表， $N = 400$ 。计算自由度，执行卡方、Cramér的V，并识别最大标准化残差的单元格。
Solve online
Ex. 110.36Understanding
证明为什么 $p = 0{,}06$ 不构成 $H_0$ 为真的证据。
Solve online
Ex. 110.37Proof
证明一个二元虚拟变量的简单线性回归（0/1指示组）产生完全相同的结果作为两个独立样本t检验（等方差）。
Solve online
Ex. 110.38Proof
证明当方差分析仅有 $k = 2$ 组时，F统计量等于双侧t检验的T统计量的平方。明确自由度。
Solve online
Ex. 110.39ProofAnswer key
证明带均匀先验的MAP估计量与最大似然估计（MLE）完全相同。从MAP定义开始。
Solve online
Ex. 110.40Challenge
用伪代码或结构化列表描述电商转化率A/B测试的完整流程：从功效分析（最小可检测效应2个百分点， $\alpha = 5\%$ ，80%功效）到最终报告，包括统计审查者需要的所有元素。
Solve online
Ex. 110.41Challenge
用详细文本（至少200字）比较在在线A/B测试中何时优选频率论方法与贝叶斯方法。考虑：可解释性、序列决策、先验融入和错误保证。
Solve online
Ex. 110.42Proof
通过积分（或通过核识别）证明如果 $\theta \sim \text{Beta}(\alpha, \beta)$ 且 $X \mid \theta \sim \text{Bin}(n, \theta)$ ，则 $\theta \mid X \sim \text{Beta}(\alpha + X,\; \beta + n - X)$ 。
Solve online

参考资源

OpenIntro Statistics（第4版） — Diez, Çetinkaya-Rundel, Barr · 2019 · CC-BY-SA。置信区间、检验、方差分析、卡方和回归的主要来源（§5–9）。
Statistics（OpenStax） — Illowsky, Dean · CC-BY。置信区间、z和t检验、分布表的实际例子来源（§8–13）。
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC。贝叶斯推断、效应量、可重复性和重复危机来源（第9、15章）。