Lição 73 — Quartis, percentis e boxplot
Resumo de 5 números: mín, Q1, mediana, Q3, máx. IQR, boxplot e regra 1,5 IQR para detectar outliers. Medidas robustas em dados assimétricos.
Used in: Stochastik — Leistungskurs alemão · H2 Math Statistics — Singapura · AP Statistics — EUA · Math B — Japão
Rigorous notation, full derivation, hypotheses
严格定义
顺序统计和百分位数
"第一四分位数 是使得 25% 的数据落在其下方的值,第三四分位数 是使得 75% 的数据落在其下方的值。" — OpenIntro Statistics §2.1
箱线图的剖析:箱体(Q1 至 Q3)、中位数线、延伸到非离群值极值的须线、离群值的单独点。
已解决的示例
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 73.1ApplicationAnswer key
数据:1, 3, 5, 7, 9。计算中位数、 和 。
- Ex. 73.2Application
数据:2, 4, 6, 8, 10, 12。计算五数总结。
- Ex. 73.3ApplicationAnswer key
成绩:4, 5, 6, 6, 7, 7, 8, 8, 9, 10。计算 、、。
- Ex. 73.4Application
计算数据的 :12, 14, 18, 22, 25, 28, 32。
- Ex. 73.5ApplicationAnswer key
年龄:18, 20, 21, 22, 23, 24, 25, 27, 30, 35, 60。应用 1.5 IQR 准则。有离群值吗?
- Ex. 73.6Application
工资(以千元计):2, 3, 3, 4, 4, 5, 5, 6, 8, 50。计算中位数和 。
- Ex. 73.7ApplicationAnswer key
对于 个已排序的数据,通过线性插值法, 的位置是什么?
- Ex. 73.8Application
时间(秒):10, 11, 11, 12, 13, 13, 14, 14, 15, 100。计算 Tukey 限制并识别离群值。
- Ex. 73.9Application
体重(公斤):60, 62, 64, 65, 65, 67, 70, 72, 75, 80。描述箱线图的所有元素。
- Ex. 73.10Application
对于 ,
- Ex. 73.11Application
数据有 。使用稳健估计量 ,计算 。
- Ex. 73.12Application
在 1000 次正态观测样本中,我们预期有多少个点在 之上?
- Ex. 73.13Application
箱线图 A:狭窄的盒子,中位数居中。箱线图 B:宽盒子,中位数接近 。比较两个数据集的分散和对称性。
- Ex. 73.14Application
右尾长的分布。均值相对于中位数在什么位置?
- Ex. 73.15Application
集合 A 有 ,集合 B 有 。哪个集合的中间数据分散更多?
- Ex. 73.16Application
的中位数 = 50。A 的 ,B 的 。两者中哪个分布向右最不对称?
- Ex. 73.17Application
公司工资的 = 千元 30。解释这一信息。
- Ex. 73.18Application
一个学生在 ENEM 处于 。这意味着什么?
- Ex. 73.19Application
如果 ,可以得出关于数据什么结论?
- Ex. 73.20Understanding
陈述"1.5 IQR 准则为正态数据标记 5% 的数据为离群值"对吗?
- Ex. 73.21ApplicationAnswer key
年龄(岁):40, 52, 55, 58, 62, 66, 72。计算五数总结并检查是否有离群值。
- Ex. 73.22ApplicationAnswer key
10 个学生的成绩:3, 5, 6, 7, 7, 8, 8, 9, 10, 10。完整箱线图(含离群值检查)。
- Ex. 73.23Modeling
100 名学生的班级:,。一个学生得了 9.5 — 他在前 25% 吗?
- Ex. 73.24Modeling
为什么 IBGE 在关于巴西不平等的报告中公布收入中位数,而不仅仅是平均值?
- Ex. 73.25Modeling
生产的零件直径: 毫米, 毫米。规格: 毫米。过程居中吗?有显著拒收的风险吗?
- Ex. 73.26Modeling
网站 A/B 测试:变体 A 的中位数 1.2 秒,;变体 B 的中位数 1.1 秒,。您选择哪个在生产中发布?用分散统计论证。
- Ex. 73.27ModelingAnswer key
您在似乎是欺诈的金融交易中检测到离群值。在分析前应删除它吗?用统计论证论证。
- Ex. 73.28Modeling
响应时间(毫秒):120, 130, 135, 140, 142, 145, 148, 150, 155, 380。计算五数总结并根据四分位数评估系统是否遵守 200 毫秒 SLA。
- Ex. 73.29Modeling
具有 4 个病房的医院。住院时间(天):病房 A:5, 8, 9, 10, 12;病房 B:3, 4, 4, 5, 20;病房 C:7, 8, 8, 9, 10;病房 D:2, 3, 15, 18, 25。构造五数总结并识别哪个病房在床位管理中最可预测。
- Ex. 73.30Modeling
按学校分类的 ENEM 成绩。学校 A:中位数 650,。学校 B:中位数 620,。哪个学校的表现更均匀?每种模式对教学政策意味着什么?
- Ex. 73.31Modeling
圣保罗的月平均降水量(毫米):234, 181, 130, 83, 68, 52, 44, 47, 82, 122, 145, 201。计算五数总结并解释季节性。
- Ex. 73.32Modeling
社区中的房产价格(千元):250, 280, 310, 320, 340, 350, 380, 390, 420, 1800。计算中位数和平均值。购买者为什么应该使用中位数作为典型价格参考?
- Ex. 73.33Understanding
用你自己的话解释,为什么中位数和 IQR 是"稳健的"而均值和标准差不是。使用具体例子。
- Ex. 73.34UnderstandingAnswer key
箱线图可以隐藏双峰分布吗?构造具有与单峰分布相同箱线图的双峰分布的具体例子。
- Ex. 73.35UnderstandingAnswer key
对于 , 是:
- Ex. 73.36Challenge
解析计算 的 。用 的函数表达。
- Ex. 73.37Challenge
论证为什么 的崩溃点是 25%,中位数的是 50%,均值的是 0%。
- Ex. 73.38ProofAnswer key
证明:如果 是围绕 对称的连续随机变量,那么 是 的中位数。
- Ex. 73.39Proof
证明对于 和来自 Uniforme(0,1) 的 iid 样本, 的样本估计量收敛到 0.25。使用顺序统计的性质。
- Ex. 73.40Proof
证明中位数在所有 上最小化 。
来源
- OpenIntro Statistics(第 4 版) — Diez、Çetinkaya-Rundel、Barr · 2019 · EN · CC-BY-SA。主要来源 — §2.1(四分位数、百分位数)和 §2.2(箱线图、离群值)。
- Statistics(OpenStax) — Illowsky、Dean · 2022 · EN · CC-BY。§2.3(通过插值的百分位数)和 §2.4(箱线图和 1.5 IQR 准则)。
- Introduction to Probability(Grinstead-Snell) — Grinstead、Snell · 1997 · EN · GNU FDL。§5.1 — 连续分布的四分位数,顺序统计。