Lição 103 — Teste de hipótese: estrutura e lógica
Estrutura formal do teste de hipótese: H0 vs H1, estatística de teste, p-valor, nível de significância, erros tipo I e II, e poder do teste.
Used in: 3.º ano do EM (17-18 anos) · Equiv. Stochastik LK alemão · Equiv. Math B japonês · H2 Statistics singapurense
Rigorous notation, full derivation, hypotheses
严格定义
假设检验的五个要素
"零假设 代表怀疑的主张。这是除非有充分证据反对它,否则将保持的现状。" — OpenIntro Statistics, §5.1
错误与检验功效
p值的形式定义
"p值衡量数据与 的一致性程度。小的p值表明数据与 不相容 — 而非 以概率 为假。" — OpenIntro Statistics, §5.1
备选假设的类型
已解决的例子
Exercise list
26 exercises · 6 with worked solution (25%)
- Ex. 103.1ApplicationAnswer key
为以下情景表述假设 和 :消费者保护机构想要验证500克面粉包装的平均重量是否符合声明。
- Ex. 103.2Application
研究人员想要验证巴西青少年睡眠时间是否少于每晚推荐的8小时。表述 和 。
- Ex. 103.3Application
,。数据:,,(已知)。计算z统计量和p值。在 处得出结论。
- Ex. 103.4Application
一个制造商声称其灯泡平均持续1000小时。一个 个灯泡的样本给出 小时, 小时(已知)。在5%水平上,平均寿命是否小于声称的值?
- Ex. 103.5Application
在刑事审判中, 是"被告无罪", 是"被告有罪"。在这个背景下描述第I型和第II型错误。巴西司法系统认为哪一个更严重?为什么?
- Ex. 103.6Understanding
一个检验产生 。下列哪个陈述是正确的?
- Ex. 103.7Understanding
一个 的检验产生 。研究者得出结论"效应不存在"。可能有什么问题?
- Ex. 103.8Application
一所学校实施了一种新方法。历史平均分为 分。干预后, 名学生的成绩为 ,(已知)。在5%水平上,成绩改善了吗?
- Ex. 103.9Application
一家紧急护理单位想要检测服务时间减少5分钟(,)。使用 和90%功效,最少的 是多少?
- Ex. 103.10ApplicationAnswer key
一枚硬币掷100次,出现60次正面。在5%水平上,硬币是公正的吗?
- Ex. 103.11Application
一个研究者改变显著性水平从 到 同时保持 固定。解释对第II型错误和检验功效的效应。
- Ex. 103.12ApplicationAnswer key
空腹血糖的正常水平为 mg/dL。一个 个糖尿病患者的样本给出 mg/dL, mg/dL。在1%水平上,平均血糖升高了吗?
- Ex. 103.13Understanding
一个结果"在5%水平上统计显著"。这正确意味着什么?
- Ex. 103.14Application
一家公司想要检测其产品的平均重量是否从 克下降到 克, 克, 和80%功效。最少的 是多少?
- Ex. 103.15Application
一个基因组学研究进行1000个同时检验,。所有检验的基因都是零(无真实效应)。预期多少个假阳性?如果60个基因"显著",估计的假发现率是多少?
- Ex. 103.16Application
一枚硬币掷800次,出现384次正面。在5%水平上,硬币是公正的吗?
- Ex. 103.17ApplicationAnswer key
一项包括 个青少年的研究记录了平均睡眠 小时, 小时(来自以前的研究)。在5%水平上,他们睡眠少于8小时吗?
- Ex. 103.18UnderstandingAnswer key
下列哪个关于统计显著性的陈述是正确的?
- Ex. 103.19Modeling
一项临床试验同时检验20个端点,。不校正的情况下至少一个假阳性的概率是多少?描述Bonferroni校正如何解决问题以及其局限性。
- Ex. 103.20Application
一所学校在全国中学教育考试(ENEM)中的历史批准率为30%。实施新方法后,100名学生中有38人通过。在5%水平上,批准率改善了吗?
- Ex. 103.21Application
检验 对比 , 和 。为 和 计算p值。这对p值和效应大小揭示了什么?
- Ex. 103.22ApplicationAnswer key
正常血压: mmHg。一个 个久坐成人的样本: mmHg, mmHg。在1%水平上,平均血压升高了吗?
- Ex. 103.23Application
一个兽医研究想要检测一个品种的猪的平均重量从125千克变为120千克(,)。使用 双侧和80%功效,需要多少只动物?
- Ex. 103.24Modeling
一所学校的全国中学教育考试(ENEM)得分 分对比州平均数 , 和 名学生。结果"高度显著"()。计算Cohen的效应大小 。2分的差异在教育上相关吗?讨论。
- Ex. 103.25Challenge
对于连续检验,证明在 为真时p值有Uniforme分布。使用这个结果验证 。
- Ex. 103.26Proof
使用Neyman-Pearson引理证明单侧z检验(如果 则拒绝)是水平 最有力的检验,对于 对比 含已知 的正态数据。
来源
- OpenIntro Statistics (第4版) — Diez、Çetinkaya-Rundel、Barr · CC-BY-SA。第 §5.1–5.3 节(检验结构、p值、功效、样本容量)。
- Statistics (OpenStax) — Illowsky、Dean · CC-BY。第9章(原假设和备选假设、第I型和第II型错误、含z的完整例子)。
- Statistical Thinking for the 21st Century — Russell Poldrack · CC-BY-NC。第10–11章(重复危机、p值的责任使用、FDR、效应大小)。