통계

대푯값과 산포도 — 평균만으론 부족하다

자료를 대표하는 평균·중앙값·최빈값의 차이를 이해합니다. 분산과 표준편차로 데이터의 퍼진 정도를 측정하고, 상자 그림으로 자료를 시각화합니다.

"우리 반 평균 점수가 75점"이라고 해도 누군가는 95점, 누군가는 55점일 수 있습니다. 평균은 중심 위치를 알려주지만, 산포도는 데이터가 얼마나 퍼져 있는지 알려줍니다. 둘 다 알아야 진짜 통계입니다.

1. 대푯값 — 자료를 대표하는 값

종류정의특징
평균(Mean)전체 합 ÷ 개수이상값(outlier)에 민감
중앙값(Median)크기 순으로 나열 시 가운데 값이상값에 강건
최빈값(Mode)가장 많이 나타나는 값여러 개일 수 있음
자료: 2, 3, 4, 5, 5, 5, 8, 9, 50

평균 = (2+3+4+5+5+5+8+9+50)/9 = 91/9 ≈ 10.1  (50에 많이 당김)
중앙값 = 5  (5번째 값)
최빈값 = 5  (3번 등장)

이상값 50이 있어 평균 > 중앙값 → 중앙값이 더 대표적

2. 편차

편차 = (각 자료값) − (평균)

모든 편차의 합 = 0 (항상)

자료: 3, 5, 7, 9, 11  →  평균 = 7

편차: 3−7=−4, 5−7=−2, 7−7=0, 9−7=2, 11−7=4
편차의 합: −4+−2+0+2+4 = 0  ✓

3. 분산과 표준편차

편차의 합은 0이므로 퍼짐을 측정하려면 편차를 제곱합니다.

자료: 3, 5, 7, 9, 11  →  평균 = 7

편차²: 16, 4, 0, 4, 16
분산 = (16+4+0+4+16)/5 = 40/5 = 8
표준편차 = √8 = 2√2 ≈ 2.83

분산의 또 다른 공식

자료: 2, 4, 6  →  평균 = 4
x² 평균 = (4+16+36)/3 = 56/3
분산 = 56/3 − 16 = 8/3 ≈ 2.67

4. 표준편차의 의미

  • 표준편차가 작을수록 데이터가 평균 가까이 모여 있음 (균등)
  • 표준편차가 클수록 데이터가 평균에서 멀리 퍼져 있음 (불균등)
A반 점수: 70, 72, 74, 76, 78  →  평균 74, 분산 8, 표준편차 2√2
B반 점수: 50, 60, 74, 88, 98  →  평균 74, 분산 296, 표준편차 ≈ 17.2

평균은 같지만 B반이 훨씬 더 퍼져 있음

5. 상자 그림 (Box Plot)

자료를 5가지 요약값으로 나타냅니다:

  • 최솟값
  • 제1사분위수 Q1: 하위 25% 위치
  • 중앙값 Q2: 하위 50% 위치
  • 제3사분위수 Q3: 하위 75% 위치
  • 최댓값
자료: 3 5 7 9 11 13 15 17 19 21  (10개)

Q2(중앙값) = (11+13)/2 = 12  (5번째와 6번째 평균)
Q1 = 하위 5개의 중앙값 = 7
Q3 = 상위 5개의 중앙값 = 17
IQR = Q3−Q1 = 10  (사분위 범위)

상자 그림: |—[===|===]—|
          3  7   12  17  21

6. 두 집단 비교

시험 전과 후 성적 비교:
시험 전: 평균 65, 표준편차 15  (변동 큼)
시험 후: 평균 75, 표준편차 8   (변동 작음)

→ 시험 후 성적이 올라갔고 (평균 ↑)
   성적 분포도 더 균등해짐 (표준편차 ↓)

핵심 정리

  • 평균: 이상값에 민감 / 중앙값: 이상값에 강건
  • 분산 / 표준편차
  • 편차의 합 = 항상 0
  • 표준편차가 작을수록 데이터가 평균에 집중

🎯 이 단원을 마스터했나요?

다음 단계로 넘어가거나, 더 많은 연습 문제를 풀어보세요.