v1 · padrão canônico

Lição 103 — Teste de hipótese: estrutura e lógica

Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.

Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense

p\text{-valor} = P(T \geq t_{\mathrm{obs}} \mid H_0) \leq \alpha \Rightarrow \text{rejeita } H_0

Choose your door

Rigorous notation, full derivation, hypotheses

严格定义

假设检验的五个要素

"零假设 $H_0$ 代表怀疑的主张。这是除非有充分证据反对它，否则将保持的现状。" — OpenIntro Statistics, §5.1

错误与检验功效

Definition· 第I型错误、第II型错误和功效

	$H_0$ 为真	$H_0$ 为假
拒绝 $H_0$	第I型错误 ( $\alpha$ )	正确决策（功效 $= 1-\beta$ ）
未拒绝 $H_0$	正确决策	第II型错误 ( $\beta$ )

第I型错误（假阳性）：当 $H_0$ 为真时拒绝它。概率由 $\alpha$ 控制。
第II型错误（假阴性）：当 $H_0$ 为假时未拒绝它。概率为 $\beta$ （取决于 $H_1$ 、 $\sigma$ 、 $n$ ）。
功效 $= 1 - \beta$ ：检测到真实效应的概率。

对于固定的样本容量，减小 $\alpha$ 会增加 $\beta$ （权衡）。不舍弃 $\alpha$ 而增加功效的方式：增加 $n$ 。

p值的形式定义

"p值衡量数据与 $H_0$ 的一致性程度。小的p值表明数据与 $H_0$ 不相容 — 而非 $H_0$ 以概率 $1-p$ 为假。" — OpenIntro Statistics, §5.1

备选假设的类型

已解决的例子

Example— 103.1· z检验双侧均值检验（基础）

问题。 一家公司声称其咖啡包的平均重量为 $\mu_0 = 500$ 克。一个 $n = 36$ 个包的样本给出 $\bar X = 492$ 克， $\sigma = 24$ 克（已知）。在水平 $\alpha = 0{,}05$ 处，数据是否与该声明矛盾？

策略。 $H_0: \mu = 500$ ， $H_1: \mu \neq 500$ （双侧）。由于 $\sigma$ 已知，使用z统计量。

求解。

$Z = \frac{\bar X - \mu_0}{\sigma/\sqrt{n}} = \frac{492 - 500}{24/\sqrt{36}} = \frac{-8}{4} = -2{,}00$

双侧p值： $p = 2\,P(Z \leq -2{,}00) = 2 \times 0{,}0228 = 0{,}0456$ 。

由于 $p = 0{,}0456 < \alpha = 0{,}05$ ，我们拒绝 $H_0$ 。在5%水平上数据与公司的声明矛盾。

验证。 双侧 $\alpha = 0{,}05$ 的临界值为 $z_{0{,}025} = 1{,}960$ 。由于 $|{-}2{,}00| = 2{,}00 > 1{,}960$ ，按统计量拒绝与p值一致。一致。

来源。 OpenStax Statistics, §9.2, 例子9.3 — CC-BY。

Example— 103.2· 第I型和第II型错误的识别（概念）

问题。 一个质量检验检查一批药物的有效成分平均浓度是否为50毫克（ $H_0$ ）。在5%水平上，该批次被批准或拒绝。（a）在这个背景下第I型错误构成什么？（b）第II型错误呢？（c）哪一个更严重？

策略。 将正式定义映射到具体背景。

求解。

(a) 第I型错误：当 $\mu = 50$ 毫克时拒绝 $H_0$ — 即拒绝实际上符合规格的批次。后果：浪费良好产品、返工成本。

(b) 第II型错误：当 $\mu \neq 50$ 毫克时未拒绝 $H_0$ — 即批准规格外的批次。后果：药物用量不足或过量到达患者。

验证。 错误间的不对称性证明了按背景以不同方式校准 $\alpha$ 和 $\beta$ 的合理性 — 医学使用 $\alpha = 0{,}01$ 和80-90%功效。

来源。 OpenIntro Statistics, §5.2, 例子5.4 — CC-BY-SA。

Example— 103.3· 功效和样本容量计算（中间）

问题。 一个研究者想要检测紧急护理单位（UPA）的平均服务时间从 $\mu_0 = 30$ 分钟变为 $\mu_1 = 27$ 分钟（ $\delta = 3$ 分钟）， $\sigma = 10$ 分钟， $\alpha = 0{,}05$ （双侧）和80%功效。最少需要多少 $n$ ？

策略。 应用功效的样本容量公式： $n = (z_{\alpha/2} + z_\beta)^2 \sigma^2/\delta^2$ 。

求解。

$z_{0{,}025} = 1{,}960$ ， $z_{0{,}20} = 0{,}842$ （80%功效 $\Rightarrow \beta = 0{,}20$ ）。

$n = \frac{(1{,}960 + 0{,}842)^2 \times 10^2}{3^2} = \frac{(2{,}802)^2 \times 100}{9} = \frac{7{,}851 \times 100}{9} \approx 87{,}2$

四舍五入： $n = 88$ 个就诊。

验证。 若 $\delta = 6$ 分钟（效应翻倍）： $n = 7{,}851 \times 100/36 \approx 22$ 。更大的效应需要更小的样本 — 一致。

来源。 OpenIntro Statistics, §5.3, 例子5.7 — CC-BY-SA。

Example— 103.4· 单侧检验 — 药物（中间）

问题。 一种新的抗凝血药声称将凝血时间平均从 $\mu_0 = 12$ 秒减少到以下水平。一个 $n = 20$ 个患者的样本给出 $\bar X = 11{,}2$ 秒， $s = 2$ 秒。在水平 $\alpha = 0{,}05$ 处，该药物有效吗？

策略。 $H_0: \mu \geq 12$ ， $H_1: \mu < 12$ （左尾单侧）。使用19自由度的t统计量。

求解。

$T = \frac{11{,}2 - 12}{2/\sqrt{20}} = \frac{-0{,}8}{0{,}4472} = -1{,}789$

对于 $H_1: \mu < 12$ ，p值 $= P(t_{19} \leq -1{,}789)$ 。从t表： $P(t_{19} \leq -1{,}729) = 0{,}05$ 和 $P(t_{19} \leq -2{,}093) = 0{,}025$ 。因此 $p \approx 0{,}045$ 。

由于 $p = 0{,}045 < 0{,}05$ ，我们拒绝 $H_0$ 。证据表明药物减少了凝血时间。

验证。 单侧临界值： $t_{0{,}05,\,19} = -1{,}729$ 。由于 $T = -1{,}789 < -1{,}729$ ，按统计量拒绝与p值一致。一致。

来源。 OpenStax Statistics, §9.4, 例子9.8 — CC-BY。

Example— 103.5· p值的常见误解和更正（高级）

问题。 一个研究者在 $H_0: \mu = 0$ 的检验中获得 $p = 0{,}03$ 并声称："有97%的概率效应是真实的。"识别错误并表述正确的解释。

策略。 应用p值的形式定义并区分关于数据的概率和关于假设的概率。

求解。

这个声明有两个原因是不正确的：

p值是关于数据的概率（给定 $H_0$ ），而非关于假设的概率。 $P(\text{数据} \mid H_0) \neq P(H_0 \mid \text{数据})$ — 混淆这两者是条件转置谬论（基础率忽视）。
$1 - p\text{-值} = 0{,}97$ 没有关于 $H_1$ 概率的解释。要获得 $P(H_1 \mid \text{数据})$ ，需要关于假设的先验的贝叶斯定理。

正确解释："如果 $H_0$ 为真，观察到一个与所得效应相同或更大的效应的概率只有3%。数据在5%显著性水平上与 $H_0$ 在统计上不相容。"

验证。 两个独立研究各有 $p = 0{,}04$ 不意味着第三个研究有 $p = 0{,}04$ — 证据的组合通过元分析完成，而非p值相乘。

来源。 OpenIntro Statistics, §5.1, 部分"Interpreting p-values" — CC-BY-SA。

Exercise list

26 exercises · 6 with worked solution (25%)

Application 18Understanding 4Modeling 2Challenge 1Proof 1

Ex. 103.1ApplicationAnswer key
为以下情景表述假设 $H_0$ 和 $H_1$ ：消费者保护机构想要验证500克面粉包装的平均重量是否符合声明。
Solve online
Ex. 103.2Application
研究人员想要验证巴西青少年睡眠时间是否少于每晚推荐的8小时。表述 $H_0$ 和 $H_1$ 。
Solve online
Ex. 103.3Application
$H_0: \mu = 50$ ， $H_1: \mu \neq 50$ 。数据： $n = 25$ ， $\bar X = 52$ ， $\sigma = 10$ （已知）。计算z统计量和p值。在 $\alpha = 0{,}05$ 处得出结论。
Solve online
Ex. 103.4Application
一个制造商声称其灯泡平均持续1000小时。一个 $n = 64$ 个灯泡的样本给出 $\bar X = 985$ 小时， $\sigma = 50$ 小时（已知）。在5%水平上，平均寿命是否小于声称的值？
Solve online
Ex. 103.5Application
在刑事审判中， $H_0$ 是"被告无罪"， $H_1$ 是"被告有罪"。在这个背景下描述第I型和第II型错误。巴西司法系统认为哪一个更严重？为什么？
Solve online
Ex. 103.6Understanding
一个检验产生 $p = 0{,}03$ 。下列哪个陈述是正确的？
Solve online
Ex. 103.7Understanding
一个 $n = 10$ 的检验产生 $p = 0{,}12$ 。研究者得出结论"效应不存在"。可能有什么问题？
Solve online
Ex. 103.8Application
一所学校实施了一种新方法。历史平均分为 $\mu_0 = 35$ 分。干预后， $n = 40$ 名学生的成绩为 $\bar X = 37$ ， $\sigma = 8$ （已知）。在5%水平上，成绩改善了吗？
Solve online
Ex. 103.9Application
一家紧急护理单位想要检测服务时间减少5分钟（ $\delta = 5$ ， $\sigma = 10$ ）。使用 $\alpha = 0{,}05$ 和90%功效，最少的 $n$ 是多少？
Solve online
Ex. 103.10ApplicationAnswer key
一枚硬币掷100次，出现60次正面。在5%水平上，硬币是公正的吗？
Solve online
Ex. 103.11Application
一个研究者改变显著性水平从 $\alpha = 0{,}05$ 到 $\alpha = 0{,}01$ 同时保持 $n$ 固定。解释对第II型错误和检验功效的效应。
Solve online
Ex. 103.12ApplicationAnswer key
空腹血糖的正常水平为 $\mu_0 = 120$ mg/dL。一个 $n = 50$ 个糖尿病患者的样本给出 $\bar X = 128$ mg/dL， $\sigma = 20$ mg/dL。在1%水平上，平均血糖升高了吗？
Solve online
Ex. 103.13Understanding
一个结果"在5%水平上统计显著"。这正确意味着什么？
Solve online
Ex. 103.14Application
一家公司想要检测其产品的平均重量是否从 $\mu_0 = 250$ 克下降到 $\mu_1 = 245$ 克， $\sigma = 20$ 克， $\alpha = 0{,}05$ 和80%功效。最少的 $n$ 是多少？
Solve online
Ex. 103.15Application
一个基因组学研究进行1000个同时检验， $\alpha = 0{,}05$ 。所有检验的基因都是零（无真实效应）。预期多少个假阳性？如果60个基因"显著"，估计的假发现率是多少？
Solve online
Ex. 103.16Application
一枚硬币掷800次，出现384次正面。在5%水平上，硬币是公正的吗？
Solve online
Ex. 103.17ApplicationAnswer key
一项包括 $n = 30$ 个青少年的研究记录了平均睡眠 $\bar X = 7{,}5$ 小时， $\sigma = 1{,}5$ 小时（来自以前的研究）。在5%水平上，他们睡眠少于8小时吗？
Solve online
Ex. 103.18UnderstandingAnswer key
下列哪个关于统计显著性的陈述是正确的？
Solve online
Ex. 103.19Modeling
一项临床试验同时检验20个端点， $\alpha = 0{,}05$ 。不校正的情况下至少一个假阳性的概率是多少？描述Bonferroni校正如何解决问题以及其局限性。
Solve online
Ex. 103.20Application
一所学校在全国中学教育考试（ENEM）中的历史批准率为30%。实施新方法后，100名学生中有38人通过。在5%水平上，批准率改善了吗？
Solve online
Ex. 103.21Application
检验 $H_0: \mu = 50$ 对比 $H_1: \mu \neq 50$ ， $\sigma = 10$ 和 $\bar X = 51$ 。为 $n = 10$ 和 $n = 10000$ 计算p值。这对p值和效应大小揭示了什么？
Solve online
Ex. 103.22ApplicationAnswer key
正常血压： $\mu_0 = 120$ mmHg。一个 $n = 60$ 个久坐成人的样本： $\bar X = 125$ mmHg， $\sigma = 15$ mmHg。在1%水平上，平均血压升高了吗？
Solve online
Ex. 103.23Application
一个兽医研究想要检测一个品种的猪的平均重量从125千克变为120千克（ $\delta = 5$ ， $\sigma = 15$ ）。使用 $\alpha = 0{,}05$ 双侧和80%功效，需要多少只动物？
Solve online
Ex. 103.24Modeling
一所学校的全国中学教育考试（ENEM）得分 $\bar X = 52$ 分对比州平均数 $\mu_0 = 50$ ， $s = 10$ 和 $n = 10000$ 名学生。结果"高度显著"（ $p < 0{,}001$ ）。计算Cohen的效应大小 $d$ 。2分的差异在教育上相关吗？讨论。
Solve online
Ex. 103.25Challenge
对于连续检验，证明在 $H_0$ 为真时p值有Uniforme $(0,1)$ 分布。使用这个结果验证 $P(\text{拒绝 } H_0 \mid H_0) = \alpha$ 。
Solve online
Ex. 103.26Proof
使用Neyman-Pearson引理证明单侧z检验（如果 $\bar X > c$ 则拒绝）是水平 $\alpha$ 最有力的检验，对于 $H_0: \mu = \mu_0$ 对比 $H_1: \mu = \mu_1 > \mu_0$ 含已知 $\sigma$ 的正态数据。
Solve online

来源

OpenIntro Statistics (第4版) — Diez、Çetinkaya-Rundel、Barr · CC-BY-SA。第 §5.1–5.3 节（检验结构、p值、功效、样本容量）。
Statistics (OpenStax) — Illowsky、Dean · CC-BY。第9章（原假设和备选假设、第I型和第II型错误、含z的完整例子）。
Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC。第10–11章（重复危机、p值的责任使用、FDR、效应大小）。