여론조사 '오차범위 ±3%'에 숨어 있는 수학
뉴스를 보다가 이런 문장을 본 적 있는가?
"후보 A 지지율 48%, 오차범위 ±3.1%포인트 (95% 신뢰수준)"
"오차범위"는 알겠는데 "95% 신뢰수준"은 도대체 무슨 뜻일까?
이 글의 목표는 그 문장을 수식으로 분해하고, 그 뒤에 숨어 있는 수학을 읽어 내는 것이다.
모집단과 표본 — 전체와 일부
가장 기본적인 질문부터 시작한다.
전국 고등학생이 150만 명이다. 전부 조사하는 건 비용도 시간도 현실적으로 불가능하다.
그래서 통계학은 표본조사를 선택한다. 1,000명을 뽑아서 조사한 뒤, 그 결과로 150만 명 전체를 추정하는 것이다.
여기서 두 개념이 등장한다.
- 모집단(조사 대상이 되는 집단 전체): 우리나라 고등학생 150만 명
- 표본(모집단에서 실제로 뽑은 일부): 조사에 응한 1,000명
모집단의 평균을 모평균(모집단 전체의 실제 평균값, μ), 표준편차를 모표준편차(모집단 전체의 흩어진 정도, σ)라고 한다.
표본에서 계산한 평균을 표본평균(표본에서 계산한 평균값, x̄)이라고 한다.
생태학자들도 이 방법을 쓴다. 제주도 동백나무 전체를 세는 건 불가능하니, 일정 구역을 표본으로 뽑아 개체 수를 세고 전체를 추정한다.
표본평균의 분포 — 100번 뽑으면 어떻게 될까
이제 핵심 질문이다.
다음 상황을 생각해 본다.
학교 전체 학생의 수면 시간이 평균 μ = 6.5시간, 표준편차 σ = 1.2시간인 모집단을 따른다고 한다.
크기 n = 100인 표본을 반복해서 여러 번 뽑는다.
이 x̄ 값들을 모아 히스토그램으로 그리면 어떤 모양이 되는가?
놀랍게도, 표본을 충분히 크게(n ≥ 30 정도) 뽑으면 x̄의 분포는 정규분포(종 모양의 좌우 대칭 분포)에 가까워진다.
이것이 중심극한 정리(표본 크기가 충분히 크면 표본평균의 분포는 모집단 모양에 상관없이 정규분포를 따른다는 정리)이다.
그 정규분포의 평균과 표준편차는 다음과 함께 결정된다.
| 표본평균의 분포 | 값 |
|---|---|
| 평균 | μ (모평균과 같음) |
| 표준편차 | σ / √n |
직관으로 이해한다.
- 표본이 클수록(n이 클수록) σ / √n이 작아진다.
- 표준편차가 작아진다는 건 x̄ 값들이 μ 주변에 빽빽하게 모인다는 뜻이다.
- 즉, 표본이 클수록 표본평균이 모평균에 더 가까워진다.
n = 100이면 표준편차가 σ/10이다. 수면 시간 σ = 1.2시간이면, 표본평균의 표준편차는 1.2/10 = 0.12시간에 불과하다.
표본비율도 같은 원리이다. 어떤 사건이 일어날 모비율을 p라 할 때, 크기 n인 표본에서 계산한 표본비율(표본에서 어떤 사건이 일어난 비율, p̂ = 사건 발생 수 / n)의 표준편차는 √(p(1-p)/n)이다.
신뢰구간 — "어디쯤 있을까"의 수학적 답
이제 핵심으로 간다.
표본평균 x̄ 하나를 계산했다. 그런데 x̄은 표본을 뽑을 때마다 달라진다. 그렇다면 "진짜 모평균 μ는 어디에 있을까?"
통계학은 이렇게 답한다.
이것이 신뢰구간(모수가 포함될 것으로 신뢰할 수 있는 구간)이다.
95% 신뢰구간의 공식은 다음과 같다.
$$\bar{x} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$
표본평균을 중심으로 표준오차의 1.96배만큼 좌우 여유를 둔 구간이다.
여기서 1.96은 정규분포에서 95% 확률에 해당하는 z값이다.
계산 예시를 본다.
고등학생 수면 시간: σ = 1.2시간, n = 100명 표본, x̄ = 6.5시간.
$$6.5 - 1.96 \times \frac{1.2}{\sqrt{100}} \leq \mu \leq 6.5 + 1.96 \times \frac{1.2}{\sqrt{100}}$$
주어진 평균, 표준편차, 표본 크기를 공식에 그대로 넣은 첫 단계다.
$$6.5 - 1.96 \times 0.12 \leq \mu \leq 6.5 + 1.96 \times 0.12$$
표준오차가 0.12로 정리되면 구간 폭이 얼마나 되는지 바로 보인다.
$$6.5 - 0.235 \leq \mu \leq 6.5 + 0.235$$
0.235는 표본평균 양쪽에 더하고 뺄 오차 한계다.
$$\boxed{6.265 \leq \mu \leq 6.735}$$
따라서 모평균은 이 범위 안에 있다고 해석하며, 단일 값 하나로 단정하지 않는다.
"우리나라 고등학생의 평균 수면 시간은 약 6.27시간에서 6.74시간 사이에 있다고 95% 신뢰한다."
세 표상으로 정리하기 — 실생활·그래프·식
이 글의 핵심 아이디어를 세 가지 표상으로 정리한다.
표상 1 — 실생활: 선거 여론조사
표상 2 — 분포 그래프
표상 3 — 식
$$\bar{x} \pm z_{0.025} \cdot \frac{\sigma}{\sqrt{n}}$$
이 압축식은 중심, 신뢰수준, 표본 크기가 신뢰구간 폭을 어떻게 정하는지 한 줄로 보여 준다.
| 신뢰수준 | z값 | 의미 |
|---|---|---|
| 90% | 1.645 | 100번 중 90번 포함 |
| 95% | 1.96 | 100번 중 95번 포함 |
| 99% | 2.576 | 100번 중 99번 포함 |
세 표상이 하나의 아이디어를 설명한다. 실생활 → 그래프 → 식 순서로 이해한 뒤, 식 → 그래프 → 실생활로도 읽을 수 있어야 한다.
자주 헷갈리는 점
고2 통계에서 가장 자주 나오는 오개념이다.
"신뢰구간 95% = 모평균이 95% 확률로 포함된다"는 생각: 이것이 가장 흔한 오해이다.
왜 틀렸을까? μ는 고정된 값이다. 확률적으로 움직이는 게 아니다. 움직이는 건 표본에서 계산한 구간 자체이다.
올바른 해석은 이렇다.
"95% 신뢰구간"은 특정 구간에 대한 확률 진술이 아니다. 이 방법으로 만든 구간의 95%가 μ를 포함한다는 방법의 신뢰성이다.
이 구분이 진짜 통계적 사고의 시작이다.
주요 개념
| 낱말 | 뜻 |
|---|---|
| 모집단 | 조사 대상이 되는 집단 전체 |
| 표본 | 모집단에서 실제로 뽑은 일부 |
| 모평균 | 모집단 전체의 실제 평균값 (기호 μ) |
| 모표준편차 | 모집단 전체의 흩어진 정도 (기호 σ) |
| 표본평균 | 표본에서 계산한 평균값 (기호 x̄) |
| 표본비율 | 표본에서 어떤 사건이 일어난 비율 (기호 p̂) |
| 중심극한 정리 | 표본 크기가 충분히 크면 표본평균의 분포는 모집단 모양에 상관없이 정규분포를 따른다는 정리 |
| 신뢰구간 | 모수(모평균 등)가 포함될 것으로 신뢰할 수 있는 구간 |
| 신뢰수준 | 같은 방식으로 구간을 반복 생성할 때 모수를 포함하는 비율 (예: 95%) |
댓글
댓글을 작성하려면 로그인이 필요합니다.
첫 댓글을 남겨주세요.