여론조사 '오차범위 ±3%'에 숨어 있는 수학

뉴스를 보다가 이런 문장을 본 적 있는가?

"후보 A 지지율 48%, 오차범위 ±3.1%포인트 (95% 신뢰수준)"

"오차범위"는 알겠는데 "95% 신뢰수준"은 도대체 무슨 뜻일까?

이 글의 목표는 그 문장을 수식으로 분해하고, 그 뒤에 숨어 있는 수학을 읽어 내는 것이다.

모집단과 표본 — 전체와 일부

가장 기본적인 질문부터 시작한다.

전국 고등학생이 150만 명이다. 전부 조사하는 건 비용도 시간도 현실적으로 불가능하다.

그래서 통계학은 표본조사를 선택한다. 1,000명을 뽑아서 조사한 뒤, 그 결과로 150만 명 전체를 추정하는 것이다.

여기서 두 개념이 등장한다.

모집단(조사 대상이 되는 집단 전체): 우리나라 고등학생 150만 명
표본(모집단에서 실제로 뽑은 일부): 조사에 응한 1,000명

모집단의 평균을 모평균(모집단 전체의 실제 평균값, μ), 표준편차를 모표준편차(모집단 전체의 흩어진 정도, σ)라고 한다.

표본에서 계산한 평균을 표본평균(표본에서 계산한 평균값, x̄)이라고 한다.

생태학자들도 이 방법을 쓴다. 제주도 동백나무 전체를 세는 건 불가능하니, 일정 구역을 표본으로 뽑아 개체 수를 세고 전체를 추정한다.

표본평균의 분포 — 100번 뽑으면 어떻게 될까

이제 핵심 질문이다.

다음 상황을 생각해 본다.

학교 전체 학생의 수면 시간이 평균 μ = 6.5시간, 표준편차 σ = 1.2시간인 모집단을 따른다고 한다.

크기 n = 100인 표본을 반복해서 여러 번 뽑는다.

이 x̄ 값들을 모아 히스토그램으로 그리면 어떤 모양이 되는가?

놀랍게도, 표본을 충분히 크게(n ≥ 30 정도) 뽑으면 x̄의 분포는 정규분포(종 모양의 좌우 대칭 분포)에 가까워진다.

이것이 중심극한 정리(표본 크기가 충분히 크면 표본평균의 분포는 모집단 모양에 상관없이 정규분포를 따른다는 정리)이다.

그 정규분포의 평균과 표준편차는 다음과 함께 결정된다.

표본평균의 분포	값
평균	μ (모평균과 같음)
표준편차	σ / √n

직관으로 이해한다.

표본이 클수록(n이 클수록) σ / √n이 작아진다.
표준편차가 작아진다는 건 x̄ 값들이 μ 주변에 빽빽하게 모인다는 뜻이다.
즉, 표본이 클수록 표본평균이 모평균에 더 가까워진다.

n = 100이면 표준편차가 σ/10이다. 수면 시간 σ = 1.2시간이면, 표본평균의 표준편차는 1.2/10 = 0.12시간에 불과하다.

표본비율도 같은 원리이다. 어떤 사건이 일어날 모비율을 p라 할 때, 크기 n인 표본에서 계산한 표본비율(표본에서 어떤 사건이 일어난 비율, p̂ = 사건 발생 수 / n)의 표준편차는 √(p(1-p)/n)이다.

신뢰구간 — "어디쯤 있을까"의 수학적 답

이제 핵심으로 간다.

표본평균 x̄ 하나를 계산했다. 그런데 x̄은 표본을 뽑을 때마다 달라진다. 그렇다면 "진짜 모평균 μ는 어디에 있을까?"

통계학은 이렇게 답한다.

이것이 신뢰구간(모수가 포함될 것으로 신뢰할 수 있는 구간)이다.

95% 신뢰구간의 공식은 다음과 같다.

$$\bar{x} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$

표본평균을 중심으로 표준오차의 1.96배만큼 좌우 여유를 둔 구간이다.

여기서 1.96은 정규분포에서 95% 확률에 해당하는 z값이다.

계산 예시를 본다.

고등학생 수면 시간: σ = 1.2시간, n = 100명 표본, x̄ = 6.5시간.

$$6.5 - 1.96 \times \frac{1.2}{\sqrt{100}} \leq \mu \leq 6.5 + 1.96 \times \frac{1.2}{\sqrt{100}}$$

주어진 평균, 표준편차, 표본 크기를 공식에 그대로 넣은 첫 단계다.

$$6.5 - 1.96 \times 0.12 \leq \mu \leq 6.5 + 1.96 \times 0.12$$

표준오차가 0.12로 정리되면 구간 폭이 얼마나 되는지 바로 보인다.

$$6.5 - 0.235 \leq \mu \leq 6.5 + 0.235$$

0.235는 표본평균 양쪽에 더하고 뺄 오차 한계다.

$$\boxed{6.265 \leq \mu \leq 6.735}$$

따라서 모평균은 이 범위 안에 있다고 해석하며, 단일 값 하나로 단정하지 않는다.

"우리나라 고등학생의 평균 수면 시간은 약 6.27시간에서 6.74시간 사이에 있다고 95% 신뢰한다."

세 표상으로 정리하기 — 실생활·그래프·식

이 글의 핵심 아이디어를 세 가지 표상으로 정리한다.

표상 1 — 실생활: 선거 여론조사

표상 2 — 분포 그래프

표상 3 — 식

$$\bar{x} \pm z_{0.025} \cdot \frac{\sigma}{\sqrt{n}}$$

이 압축식은 중심, 신뢰수준, 표본 크기가 신뢰구간 폭을 어떻게 정하는지 한 줄로 보여 준다.

신뢰수준	z값	의미
90%	1.645	100번 중 90번 포함
95%	1.96	100번 중 95번 포함
99%	2.576	100번 중 99번 포함

세 표상이 하나의 아이디어를 설명한다. 실생활 → 그래프 → 식 순서로 이해한 뒤, 식 → 그래프 → 실생활로도 읽을 수 있어야 한다.

자주 헷갈리는 점

고2 통계에서 가장 자주 나오는 오개념이다.

"신뢰구간 95% = 모평균이 95% 확률로 포함된다"는 생각: 이것이 가장 흔한 오해이다.

왜 틀렸을까? μ는 고정된 값이다. 확률적으로 움직이는 게 아니다. 움직이는 건 표본에서 계산한 구간 자체이다.

올바른 해석은 이렇다.

"95% 신뢰구간"은 특정 구간에 대한 확률 진술이 아니다. 이 방법으로 만든 구간의 95%가 μ를 포함한다는 방법의 신뢰성이다.

이 구분이 진짜 통계적 사고의 시작이다.

주요 개념

낱말	뜻
모집단	조사 대상이 되는 집단 전체
표본	모집단에서 실제로 뽑은 일부
모평균	모집단 전체의 실제 평균값 (기호 μ)
모표준편차	모집단 전체의 흩어진 정도 (기호 σ)
표본평균	표본에서 계산한 평균값 (기호 x̄)
표본비율	표본에서 어떤 사건이 일어난 비율 (기호 p̂)
중심극한 정리	표본 크기가 충분히 크면 표본평균의 분포는 모집단 모양에 상관없이 정규분포를 따른다는 정리
신뢰구간	모수(모평균 등)가 포함될 것으로 신뢰할 수 있는 구간
신뢰수준	같은 방식으로 구간을 반복 생성할 때 모수를 포함하는 비율 (예: 95%)

여론조사 '오차범위 ±3%'에 숨어 있는 수학

여론조사 '오차범위 ±3%'에 숨어 있는 수학

모집단과 표본 — 전체와 일부#

표본평균의 분포 — 100번 뽑으면 어떻게 될까#

신뢰구간 — "어디쯤 있을까"의 수학적 답#

세 표상으로 정리하기 — 실생활·그래프·식#

자주 헷갈리는 점#

주요 개념#

댓글

모집단과 표본 — 전체와 일부

표본평균의 분포 — 100번 뽑으면 어떻게 될까

신뢰구간 — "어디쯤 있을까"의 수학적 답

세 표상으로 정리하기 — 실생활·그래프·식

자주 헷갈리는 점

주요 개념