Lição 73 — Quartis, percentis e boxplot
Resumo de 5 números: mín, Q1, mediana, Q3, máx. IQR, boxplot e regra 1,5 IQR para detectar outliers. Medidas robustas em dados assimétricos.
Used in: Stochastik — Leistungskurs alemão · H2 Math Statistics — Singapura · AP Statistics — EUA · Math B — Japão
Rigorous notation, full derivation, hypotheses
厳密な定義
順序統計量とパーセンタイル
"The first quartile, , is the value such that 25% of the data fall below it, and the third quartile, , is such that 75% of the data fall below it." — OpenIntro Statistics §2.1
箱ひげ図の構造:箱(Q1 から Q3)、中央値線、外れ値でない最後の値までのひげ、外れ値の個別プロット。
解いた例
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 73.1ApplicationAnswer key
データ:1, 3, 5, 7, 9。中央値、、 を計算してください。
- Ex. 73.2Application
データ:2, 4, 6, 8, 10, 12。5 数要約を計算してください。
- Ex. 73.3ApplicationAnswer key
成績:4, 5, 6, 6, 7, 7, 8, 8, 9, 10。、、 を計算してください。
- Ex. 73.4Application
データの IQR を計算してください:12, 14, 18, 22, 25, 28, 32。
- Ex. 73.5ApplicationAnswer key
年齢:18, 20, 21, 22, 23, 24, 25, 27, 30, 35, 60。1.5 IQR 規則を適用してください。外れ値はありますか?
- Ex. 73.6Application
給与(ブラジル・レアル千):2, 3, 3, 4, 4, 5, 5, 6, 8, 50。中央値と IQR を計算してください。
- Ex. 73.7ApplicationAnswer key
の並べたデータについて、線形補間法で の位置は何ですか?
- Ex. 73.8Application
時間(秒):10, 11, 11, 12, 13, 13, 14, 14, 15, 100。Tukey の限界を計算し、外れ値を特定してください。
- Ex. 73.9Application
重量(kg):60, 62, 64, 65, 65, 67, 70, 72, 75, 80。箱ひげ図の全要素を記述してください。
- Ex. 73.10Application
について、
- Ex. 73.11Application
のデータ。堅牢推定量 を使って を計算してください。
- Ex. 73.12Application
1000 の正規観測値のサンプルで より上にいくつポイントを期待しますか?
- Ex. 73.13Application
箱ひげ図 A:狭い箱、中央値が中央。箱ひげ図 B:広い箱、中央値が に近い。2 つのセットの分散と非対称性を比較してください。
- Ex. 73.14Application
右に長い尾を持つ分布。平均は中央値に対してどこにありますか?
- Ex. 73.15Application
セット A の 、セット B の 。どちらが中央データで分散が多いですか?
- Ex. 73.16Application
の中央値。 の 、 の 。どちらが右に非対称分布ですか?
- Ex. 73.17Application
企業の給与の = 30 ブラジル・レアル千。この情報を解釈してください。
- Ex. 73.18Application
学生が ENEM の にいます。何を意味しますか?
- Ex. 73.19Application
の場合、データについて何が言えますか?
- Ex. 73.20Understanding
「1.5 IQR 規則は正規データで 5% をたるべて外れ値として標識する」は正確ですか?
- Ex. 73.21ApplicationAnswer key
年齢(年):40, 52, 55, 58, 62, 66, 72。5 数要約を計算し、外れ値を確認してください。
- Ex. 73.22ApplicationAnswer key
10 人の生徒の成績:3, 5, 6, 7, 7, 8, 8, 9, 10, 10。完全な箱ひげ図(外れ値確認付き)。
- Ex. 73.23Modeling
100 人のクラス:、。生徒が 9.5 を取得 — 上位 25% ですか?
- Ex. 73.24Modeling
IBGE がブラジルの不平等報告でなぜ中央値のみでなく平均ではなく、中央値を公表するのですか?
- Ex. 73.25Modeling
製造部品の直径: mm、 mm。仕様: mm。プロセスは中央化されていますか?顕著な拒否リスクはありますか?
- Ex. 73.26Modeling
サイトの A/B テスト:バリアント A は中央値 1.2 s、;バリアント B は中央値 1.1 s、。本番環境で起動するのはどちらを推奨しますか?分散統計を使って正当化してください。
- Ex. 73.27ModelingAnswer key
金融取引で詐欺に見える外れ値を検出しています。データを分析する前に削除すべきですか?統計議論で正当化してください。
- Ex. 73.28Modeling
応答時間(ms):120, 130, 135, 140, 142, 145, 148, 150, 155, 380。5 数要約を計算し、四分位数に基づき、SLA 200 ms を満たすシステムを評価してください。
- Ex. 73.29Modeling
4 つの病棟がある病院。入院時間(日):A:5, 8, 9, 10, 12;B:3, 4, 4, 5, 20;C:7, 8, 8, 9, 10;D:2, 3, 15, 18, 25。5 数要約を構築し、どの病棟がベッド管理で最も予測可能か特定してください。
- Ex. 73.30Modeling
学校別 ENEM 成績。学校 A:中央値 650、。学校 B:中央値 620、。どちらが均一パフォーマンス?各パターンはどんな教育政策を示唆?
- Ex. 73.31Modeling
サンパウロの月降水平均(mm):234, 181, 130, 83, 68, 52, 44, 47, 82, 122, 145, 201。5 数要約を計算し、季節性を解釈してください。
- Ex. 73.32Modeling
近所の不動産価格(ブラジル・レアル千):250, 280, 310, 320, 340, 350, 380, 390, 420, 1800。中央値と平均を計算してください。なぜ購入者は中央値を一般的価格の参照として使うべきですか?
- Ex. 73.33Understanding
自分の言葉で、なぜ中央値と IQR は「堅牢」で、平均と標準偏差は堅牢でないかを説明してください。具体例を使ってください。
- Ex. 73.34UnderstandingAnswer key
箱ひげ図が二峰分布を隠すことができますか?一峰分布と同じ箱ひげ図を持つ二峰分布の具体例を構築してください。
- Ex. 73.35UnderstandingAnswer key
の場合、 は:
- Ex. 73.36Challenge
解析的に の IQR を計算してください。 の関数として表現してください。
- Ex. 73.37Challenge
IQR の崩壊点が 25%、中央値が 50%、平均が 0% である理由を議論してください。
- Ex. 73.38ProofAnswer key
証明: が を中心に対称な密度を持つ連続確率変数なら、 は の中央値です。
- Ex. 73.39Proof
と Uniform(0,1) の iid サンプルについて、 の標本推定量が 0.25 に収束することを示してください。順序統計量のプロパティを使ってください。
- Ex. 73.40Proof
中央値が をすべての で最小化することを証明してください。
参考文献
- OpenIntro Statistics (第 4 版) — Diez, Çetinkaya-Rundel, Barr · 2019 · EN · CC-BY-SA. 第一次参考 — §2.1(四分位数、パーセンタイル)と §2.2(箱ひげ図、外れ値)。
- Statistics (OpenStax) — Illowsky, Dean · 2022 · EN · CC-BY. §2.3(補間によるパーセンタイル)と §2.4(箱ひげ図と 1.5 IQR 規則)。
- Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · 1997 · EN · GNU FDL. §5.1 — 連続分布の四分位数、順序統計量。