Lição 73 — Quartis, percentis e boxplot
Resumo de 5 números: mín, Q1, mediana, Q3, máx. IQR, boxplot e regra 1,5 IQR para detectar outliers. Medidas robustas em dados assimétricos.
Used in: Stochastik — Leistungskurs alemão · H2 Math Statistics — Singapura · AP Statistics — EUA · Math B — Japão
Rigorous notation, full derivation, hypotheses
엄밀한 정의
순서 통계량과 백분위수
"The first quartile, , is the value such that 25% of the data fall below it, and the third quartile, , is such that 75% of the data fall below it." — OpenIntro Statistics §2.1
상자 그림의 구조: 상자(Q1부터 Q3까지), 중앙값 선, 수염(극단값까지), 이상치는 개별 점으로 표시.
풀이 예시
Exercise list
40 exercises · 10 with worked solution (25%)
- Ex. 73.1ApplicationAnswer key
데이터: 1, 3, 5, 7, 9. 중앙값, , 을 계산하세요.
- Ex. 73.2Application
데이터: 2, 4, 6, 8, 10, 12. 5개 요약을 계산하세요.
- Ex. 73.3ApplicationAnswer key
성적: 4, 5, 6, 6, 7, 7, 8, 8, 9, 10. , , 을 계산하세요.
- Ex. 73.4Application
데이터의 을 계산하세요: 12, 14, 18, 22, 25, 28, 32.
- Ex. 73.5ApplicationAnswer key
연령: 18, 20, 21, 22, 23, 24, 25, 27, 30, 35, 60. 1.5 IQR 규칙을 적용하세요. 이상치가 있나요?
- Ex. 73.6Application
급여(만원): 2, 3, 3, 4, 4, 5, 5, 6, 8, 50. 중앙값과 을 계산하세요.
- Ex. 73.7ApplicationAnswer key
개 정렬 데이터에서 선형 보간 방법으로 의 위치는?
- Ex. 73.8Application
시간(초): 10, 11, 11, 12, 13, 13, 14, 14, 15, 100. Tukey 한계를 계산하고 이상치를 찾으세요.
- Ex. 73.9Application
체중(kg): 60, 62, 64, 65, 65, 67, 70, 72, 75, 80. 상자 그림의 모든 요소를 설명하세요.
- Ex. 73.10Application
에 대해
- Ex. 73.11Application
인 데이터. 견고한 추정량 를 사용해 를 계산하세요.
- Ex. 73.12Application
1000번의 정규 관측 표본에서 을 초과하는 점이 몇 개나 예상됩니까?
- Ex. 73.13Application
상자 그림 A: 좁은 상자, 중앙값 중앙. 상자 그림 B: 넓은 상자, 중앙값이 에 가까움. 두 집합의 산포와 비대칭을 비교하세요.
- Ex. 73.14Application
우측 꼬리가 긴 분포. 평균은 중앙값에 대해 어느 위치에 있습니까?
- Ex. 73.15Application
집합 A: , 집합 B: . 어느 것이 중앙 데이터에서 더 많은 산포를 가지고 있습니까?
- Ex. 73.16Application
A와 B의 중앙값은 모두 50. A의 , B의 . 어느 것이 우측으로 더 비대칭입니까?
- Ex. 73.17Application
회사 급여의 = 30만원. 이 정보를 해석하세요.
- Ex. 73.18Application
학생이 수능의 에 있습니다. 이것은 무엇을 의미합니까?
- Ex. 73.19Application
이면 데이터에 대해 무엇을 결론지을 수 있습니까?
- Ex. 73.20Understanding
"1.5 IQR 규칙은 정규 데이터에서 5%를 이상치로 표시한다"는 문장이 맞습니까?
- Ex. 73.21ApplicationAnswer key
연령(세): 40, 52, 55, 58, 62, 66, 72. 5개 요약을 계산하고 이상치를 확인하세요.
- Ex. 73.22ApplicationAnswer key
10명 학생의 성적: 3, 5, 6, 7, 7, 8, 8, 9, 10, 10. 상자 그림 완성(이상치 확인 포함).
- Ex. 73.23Modeling
100명 반: , . 학생이 9.5를 맞았습니다. 상위 25% 범위에 있습니까?
- Ex. 73.24Modeling
통계청이 소득 불평등 보고서에서 평균이 아닌 중위 소득을 발표하는 이유는 무엇입니까?
- Ex. 73.25Modeling
생산 부품의 지름: mm, mm. 규격: mm. 공정이 중심에 있습니까? 부적합 위험이 있습니까?
- Ex. 73.26Modeling
사이트 A/B 검정: 변형 A는 중앙값 1.2초, . 변형 B는 중앙값 1.1초, . 운영 환경에 배포할 것은? 산포 통계로 정당화하세요.
- Ex. 73.27ModelingAnswer key
금융 거래에서 사기로 보이는 이상치를 발견했습니다. 분석 전에 제거해야 합니까? 통계적 논증으로 정당화하세요.
- Ex. 73.28Modeling
응답 시간(ms): 120, 130, 135, 140, 142, 145, 148, 150, 155, 380. 5개 요약을 계산하고 200ms SLA 준수 여부를 사분위수로 평가하세요.
- Ex. 73.29Modeling
병원의 4개 병동. 입원 기간(일): 병동A: 5, 8, 9, 10, 12; 병동B: 3, 4, 4, 5, 20; 병동C: 7, 8, 8, 9, 10; 병동D: 2, 3, 15, 18, 25. 5개 요약을 구성하고 어느 병동이 침상 관리에서 가장 예측 가능한지 찾으세요.
- Ex. 73.30Modeling
학교별 수능 점수. 학교 A: 중앙값 650, . 학교 B: 중앙값 620, . 어느 학교가 더 균등한 성과를 보입니까? 각 패턴이 교육 정책에 어떤 제안을 하는지?
- Ex. 73.31Modeling
서울의 월평균 강수량(mm): 234, 181, 130, 83, 68, 52, 44, 47, 82, 122, 145, 201. 5개 요약을 계산하고 계절성을 해석하세요.
- Ex. 73.32Modeling
동네 부동산 가격(만원): 250, 280, 310, 320, 340, 350, 380, 390, 420, 1800. 중앙값과 평균을 계산하세요. 구매자가 전형적인 가격으로 중앙값을 사용해야 하는 이유는?
- Ex. 73.33Understanding
중앙값과 IQR이 "견고"하지만 평균과 표준편차는 그렇지 않은 이유를 자신의 말로 설명하세요. 구체적 예시를 사용.
- Ex. 73.34UnderstandingAnswer key
상자 그림이 쌍봉형 분포를 숨길 수 있습니까? 단일봉 분포와 같은 상자 그림을 가지는 쌍봉형 분포의 구체적 예시를 만드세요.
- Ex. 73.35UnderstandingAnswer key
에 대해 은:
- Ex. 73.36Challenge
의 을 해석적으로 계산하세요. 의 함수로 나타내세요.
- Ex. 73.37Challenge
의 붕괴점이 25%, 중앙값의 붕괴점이 50%, 평균의 붕괴점이 0%임을 논증하세요.
- Ex. 73.38ProofAnswer key
증명: 가 에 대해 대칭인 밀도의 연속 확률변수이면, 는 의 중앙값입니다.
- Ex. 73.39Proof
이고 균등(0,1)에서 iid 표본일 때, 의 표본 추정량이 0.25로 수렴함을 보이세요. 순서 통계량의 성질을 사용.
- Ex. 73.40Proof
중앙값이 모든 에 대해 를 최소화함을 증명하세요.
출처
- OpenIntro Statistics (4판) — Diez, Çetinkaya-Rundel, Barr · 2019 · KO · CC-BY-SA. 주요 출처 — §2.1(사분위수, 백분위수)과 §2.2(상자 그림, 이상치).
- Statistics (OpenStax) — Illowsky, Dean · 2022 · KO · CC-BY. §2.3(선형 보간 백분위수)과 §2.4(상자 그림과 1.5 IQR 규칙).
- Introduction to Probability (Grinstead-Snell) — Grinstead, Snell · 1997 · KO · GNU FDL. §5.1 — 연속 분포의 사분위수, 순서 통계량.