전국 고3 학생의 평균 키를 알고 싶다면? 300만 명을 모두 재는 것은 불가능합니다. 100명만 표본으로 뽑아 추정할 수 있습니다 — 이것이 통계적 추론입니다.
1. 모집단과 표본
| 용어 | 설명 | 기호 |
|---|---|---|
| 모집단 | 조사 대상 전체 | N (모집단 크기) |
| 표본 | 모집단의 일부 | n (표본 크기) |
| 모평균 | 모집단 평균 | μ |
| 모분산 | 모집단 분산 | σ² |
| 표본평균 | 표본의 평균 | |
| 표본분산 | 표본의 분산 |
무작위추출: 모든 개체가 동일한 확률로 선택됨
복원추출: 뽑은 것을 되돌려 놓고 다시 추출
비복원추출: 뽑은 것을 되돌려 놓지 않음
2. 표본평균의 분포
모평균 , 모분산 인 모집단에서 크기 의 표본을 뽑을 때:
중심극한정리
이 충분히 크면 (일반적으로 ), 모집단의 분포와 관계없이:
모평균 50, 모표준편차 12인 모집단에서 n=36 표본:
E(X̄) = 50
σ(X̄) = 12/√36 = 2
P(47 ≤ X̄ ≤ 53) = P(-1.5 ≤ Z ≤ 1.5) ≈ 0.8664
3. 모평균의 추정 (신뢰구간)
모분산 을 알고, 크기 의 표본평균이 일 때, 모평균 의 신뢰구간:
신뢰수준 95%
신뢰수준 99%
예) σ=15, n=100, x̄=75, 신뢰수준 95%:
E = 1.96 × 15/√100 = 1.96 × 1.5 = 2.94
신뢰구간: (75−2.94, 75+2.94) = (72.06, 77.94)
신뢰구간 길이 = 2 × 1.96 × σ/√n
n을 4배로 늘리면 신뢰구간 길이는 1/2로 감소
표본 크기 결정
신뢰구간 길이를 L 이하로 하려면:
2 × z × σ/√n ≤ L
n ≥ (2zσ/L)²
허용 오차 E = 1.96σ/√n → n = (1.96σ/E)²
4. 가설검정
기본 개념
| 용어 | 설명 |
|---|---|
| 귀무가설 H₀ | 검정하려는 가설 (등호 포함) |
| 대립가설 H₁ | 귀무가설에 반하는 가설 |
| 유의수준 α | H₀가 참인데 기각할 확률 (보통 0.05 또는 0.01) |
| 기각역 | H₀를 기각하는 통계량의 범위 |
| p값 | 관찰된 결과보다 극단적인 결과가 나올 확률 |
검정 절차
① 귀무가설·대립가설 설정
H₀: μ = μ₀ vs H₁: μ ≠ μ₀ (양측) 또는 H₁: μ > μ₀ (단측)
② 유의수준 α 설정 (0.05)
③ 검정통계량 계산: Z = (X̄ − μ₀) / (σ/√n)
④ 기각역 결정:
양측: |Z| > 1.96 (α=0.05)
단측: Z > 1.645 (α=0.05)
⑤ 결론: 기각역에 포함되면 H₀ 기각
예) μ₀=50, σ=10, n=100, x̄=52.5, α=0.05 (양측)
Z = (52.5−50)/(10/10) = 2.5
|Z|=2.5 > 1.96 → H₀ 기각
"평균이 50이 아니다"라고 결론
핵심 정리
- ,
- 95% 신뢰구간:
- n↑ → 신뢰구간 길이↓ (더 정밀한 추정)
- 가설검정: 검정통계량이 기각역에 들면 H₀ 기각