"우리 반 평균 점수가 75점"이라고 해도 누군가는 95점, 누군가는 55점일 수 있습니다. 평균은 중심 위치를 알려주지만, 산포도는 데이터가 얼마나 퍼져 있는지 알려줍니다. 둘 다 알아야 진짜 통계입니다.
1. 대푯값 — 자료를 대표하는 값
| 종류 | 정의 | 특징 |
|---|---|---|
| 평균(Mean) | 전체 합 ÷ 개수 | 이상값(outlier)에 민감 |
| 중앙값(Median) | 크기 순으로 나열 시 가운데 값 | 이상값에 강건 |
| 최빈값(Mode) | 가장 많이 나타나는 값 | 여러 개일 수 있음 |
자료: 2, 3, 4, 5, 5, 5, 8, 9, 50
평균 = (2+3+4+5+5+5+8+9+50)/9 = 91/9 ≈ 10.1 (50에 많이 당김)
중앙값 = 5 (5번째 값)
최빈값 = 5 (3번 등장)
이상값 50이 있어 평균 > 중앙값 → 중앙값이 더 대표적
2. 편차
편차 = (각 자료값) − (평균)
모든 편차의 합 = 0 (항상)
자료: 3, 5, 7, 9, 11 → 평균 = 7
편차: 3−7=−4, 5−7=−2, 7−7=0, 9−7=2, 11−7=4
편차의 합: −4+−2+0+2+4 = 0 ✓
3. 분산과 표준편차
편차의 합은 0이므로 퍼짐을 측정하려면 편차를 제곱합니다.
자료: 3, 5, 7, 9, 11 → 평균 = 7
편차²: 16, 4, 0, 4, 16
분산 = (16+4+0+4+16)/5 = 40/5 = 8
표준편차 = √8 = 2√2 ≈ 2.83
분산의 또 다른 공식
자료: 2, 4, 6 → 평균 = 4
x² 평균 = (4+16+36)/3 = 56/3
분산 = 56/3 − 16 = 8/3 ≈ 2.67
4. 표준편차의 의미
- 표준편차가 작을수록 데이터가 평균 가까이 모여 있음 (균등)
- 표준편차가 클수록 데이터가 평균에서 멀리 퍼져 있음 (불균등)
A반 점수: 70, 72, 74, 76, 78 → 평균 74, 분산 8, 표준편차 2√2
B반 점수: 50, 60, 74, 88, 98 → 평균 74, 분산 296, 표준편차 ≈ 17.2
평균은 같지만 B반이 훨씬 더 퍼져 있음
5. 상자 그림 (Box Plot)
자료를 5가지 요약값으로 나타냅니다:
- 최솟값
- 제1사분위수 Q1: 하위 25% 위치
- 중앙값 Q2: 하위 50% 위치
- 제3사분위수 Q3: 하위 75% 위치
- 최댓값
자료: 3 5 7 9 11 13 15 17 19 21 (10개)
Q2(중앙값) = (11+13)/2 = 12 (5번째와 6번째 평균)
Q1 = 하위 5개의 중앙값 = 7
Q3 = 상위 5개의 중앙값 = 17
IQR = Q3−Q1 = 10 (사분위 범위)
상자 그림: |—[===|===]—|
3 7 12 17 21
6. 두 집단 비교
시험 전과 후 성적 비교:
시험 전: 평균 65, 표준편차 15 (변동 큼)
시험 후: 평균 75, 표준편차 8 (변동 작음)
→ 시험 후 성적이 올라갔고 (평균 ↑)
성적 분포도 더 균등해짐 (표준편차 ↓)
핵심 정리
- 평균: 이상값에 민감 / 중앙값: 이상값에 강건
- 분산 / 표준편차
- 편차의 합 = 항상 0
- 표준편차가 작을수록 데이터가 평균에 집중