성적이 왜 항상 종 모양일까 — 정규분포와 Z점수의 비밀

앞선 글에 확률분포를 배웠다. 이산 확률변수와 연속 확률변수를 구분하고, 기댓값과 분산으로 분포의 중심과 퍼짐을 수치화했다. 연속 확률분포에서 확률은 곡선 아래 넓이라는 것도 기억하다.

이 글에서는 그 연속 확률분포 중에서 가장 중요한 곡선을 만난다. 자연과 사회에서 놀라울 만큼 자주 등장하는 종 모양 곡선 — 정규분포이다. 그리고 어떤 정규분포든 하나의 공통된 척도로 바꾸는 강력한 도구 표준화도 배운다.

오늘의 핵심

정규분포 N(μ, σ²)는 평균 μ를 중심으로 좌우 대칭인 종형 곡선을 이루며, 자연 현상과 측정 오차에서 광범위하게 나타나는 연속 확률분포다. 표준화 변환 Z = (X − μ)/σ를 통해 임의의 정규분포를 표준정규분포 N(0, 1)로 변환하면 단일 z표로 모든 정규분포의 확률 계산이 가능하다. 중심극한정리는 표본 크기가 충분할 때 표본평균이 정규분포에 근사함을 보장해 통계적 추정의 이론적 근거를 제공한다.

종형 곡선 — 왜 이 모양이 자주 나타나는가?

키를 예로 생각해 본다. 우리나라 고3 남학생의 키를 수백 명 조사해서 히스토그램을 그리면 어떤 모양이 되는가? 아마 가운데(평균 근처)에 가장 많이 몰리고, 양 끝으로 갈수록 드물어지는 좌우 대칭 모양일 것이다. 막대를 점점 얇게 만들수록 이 히스토그램은 부드러운 곡선에 가까워진다.

이 곡선이 바로 정규분포(자연과 사회에서 가장 흔히 나타나는 종 모양의 연속 확률분포. N(μ, σ²)으로 표기)이다. 평균 μ(뮤)와 분산 σ²(시그마 제곱)의 두 매개변수로 완전히 결정된다.

정규분포의 핵심 성질 세 가지를 확인한다.

첫째, 곡선은 평균 μ를 중심으로 완전히 좌우 대칭이다. 평균·중앙값·최빈값이 모두 μ에서 일치한다.

둘째, 곡선 전체의 아래 넓이는 정확히 1이다. 모든 확률의 합 = 1이다.

셋째, 표준편차 σ(시그마)가 작을수록 곡선이 뾰족하게 솟아오르고, σ가 클수록 납작하게 퍼진다. μ는 곡선의 좌우 위치를 결정하고, σ는 퍼짐을 결정한다.

매개변수	변화 방향	곡선에 미치는 효과
μ 증가	오른쪽 이동	모양 유지, 위치만 이동
σ 증가	퍼짐 증가	납작하고 넓어짐
σ 감소	퍼짐 감소	뾰족하고 좁아짐

두 정규분포 N(50, 25)와 N(50, 225)가 있다고 하자. μ = 50으로 같지만, σ² = 25(σ = 5)인 쪽이 훨씬 뾰족하고, σ² = 225(σ = 15)인 쪽이 납작하고 넓다.

68-95-99.7 규칙 — 면적의 비밀

정규분포에서 확률 = 곡선 아래 넓이이다. 표준편차를 기준으로 범위를 잡으면 아래와 같은 고정된 비율이 항상 성립한다. 이것을 68-95-99.7 규칙(정규분포에서 μ±σ, μ±2σ, μ±3σ 범위에 각각 약 68%, 95%, 99.7%가 포함되는 규칙)이라고 한다.

범위	포함 확률	양측 바깥 확률	한쪽 바깥 확률
μ − σ ~ μ + σ	약 68%	32%	16%
μ − 2σ ~ μ + 2σ	약 95%	5%	2.5%
μ − 3σ ~ μ + 3σ	약 99.7%	0.3%	0.15%

어느 시험 점수가 N(70, 100), 즉 μ = 70, σ = 10을 따른다면:

점수가 60 ~ 80점인 학생은 약 68%
점수가 50 ~ 90점인 학생은 약 95%
점수가 40 ~ 100점인 학생은 약 99.7%

이 수치들은 분포의 μ와 σ 값이 달라져도 비율은 항상 같다. 정규분포라면 어디서나 성립하는 규칙이다.

실용 활용: 키 X ~ N(175, 64), 즉 μ = 175cm, σ = 8cm라면:

약 68%: 167 ~ 183cm (μ ± σ)
약 95%: 159 ~ 191cm (μ ± 2σ)
P(X < 159) ≈ 2.5% (대칭성으로 하측 2.5%)

표준화 — 모든 정규분포를 하나의 척도로

68-95-99.7 규칙은 편리하지만 "성적이 75점 이하일 확률"처럼 딱 떨어지지 않는 값은 알려 주지 않는다. 이를 위해 z표(표준정규분포표)를 이용한다.

z표는 한 가지 특별한 정규분포인 표준정규분포(평균이 0, 표준편차가 1인 정규분포. N(0, 1))의 넓이를 정리한 표이다. 어떤 정규분포 N(μ, σ²)를 따르는 X를 표준정규분포를 따르는 Z로 바꾸는 변환이 표준화(정규분포 N(μ, σ²)의 값 X를 Z = (X − μ)/σ로 변환해 N(0, 1)로 맞추는 조작)이다.

$$Z = \frac{X - \mu}{\sigma}$$

표준화는 평균에서 얼마나 떨어졌는지를 표준편차 단위로 바꾸는 계산이다.

이 변환의 직관을 확인한다.

X − μ: 값에서 평균을 빼면 분포의 중심이 0으로 이동한다.
÷ σ: 표준편차로 나누면 퍼짐이 1 단위로 정규화된다.

이렇게 구한 z값(표준화된 값. 원래 값이 평균에서 표준편차 몇 배만큼 떨어져 있는지를 나타냄)을 z표에 찾으면 P(0 ≤ Z ≤ z) 형태의 확률을 읽을 수 있다.

예시: X가 N(70, 100) (μ = 70, σ = 10)을 따를 때, X = 85의 z값은 다음과 같다.

$$Z = \frac{85 - 70}{10} = \frac{15}{10} = 1.5$$

85점은 평균보다 표준편차 1.5개만큼 높은 위치라는 뜻이다.

즉 X = 85는 평균에서 표준편차의 1.5배만큼 위에 있다. z값은 무차원(단위 없는 수)이다. "z = 1.5cm"처럼 단위를 붙이면 안 된다.

표준화 절차를 정리하면 다음과 같다.

z표 사용법 — 확률을 읽는다

z표(표준정규분포에서 P(0 ≤ Z ≤ z)의 값을 정리한 표)는 z = 0.00 ~ 3.49까지 소수 둘째 자리로 세분돼 있다. z = 1.50이라면 행 1.5 × 열 .00을 찾아 읽는다.

z	.00	.01	.02
1.4	0.4192	0.4207	0.4222
1.5	0.4332	0.4345	0.4357
1.6	0.4452	0.4463	0.4474

P(0 ≤ Z ≤ 1.50) = 0.4332이다. N(0, 1)에서 0에서 1.5까지의 면적이 43.32%라는 뜻이다.

대칭성을 활용하면 다양한 구간의 확률을 구할 수 있다.

구하는 확률	계산 방법	결과 (z = 1.5, p = 0.4332)
P(Z ≤ z)	0.5 + p	0.9332
P(Z ≥ z)	0.5 − p	0.0668
P(Z ≤ −z)	0.5 − p	0.0668
P(−z ≤ Z ≤ z)	2p	0.8664

예시 풀이: X ~ N(70, 100), P(55 ≤ X ≤ 85)를 구한다.

중요한 주의점: z표는 대부분 P(0 ≤ Z ≤ z)만 제공한다. P(Z ≤ z), P(Z ≥ z), P(a ≤ Z ≤ b)는 대칭성(P(Z ≤ 0) = 0.5)과 덧셈·뺄셈으로 반드시 변환해야 한다.

중심극한정리 — 왜 정규분포가 어디서나 나타나는가?

마지막으로 가장 강력한 결론이다. 왜 현실 데이터가 정규분포를 따르는 경우가 많은가?

중심극한정리(모집단의 분포 모양에 상관없이, 표본 크기 n이 충분히 크면 표본평균의 분포가 정규분포에 가까워진다는 정리)가 그 이유이다. 일반적으로 n ≥ 30이면 충분하다고 본다.

주사위(1~6 균등분포, 정규분포와 전혀 다른 모양)를 100번 던져 평균을 구하는 시뮬레이션을 수천 번 반복하면, 그 표본평균들이 모이는 분포는 거의 정규분포이다.

이로부터 중요한 실용적 결과가 나온다.

모집단의 평균이 μ, 표준편차가 σ일 때, 크기 n인 표본의 표본평균(n개의 표본 값의 평균. X̄로 표기하며 X̄ ~ N(μ, σ²/n)에 근사) X̄는 다음 분포에 근사한다.

$$\bar{X} \sim N\left(\mu,, \frac{\sigma^2}{n}\right)$$

표본평균의 중심은 μ에 머물지만, 분산은 n으로 나뉘어 더 좁게 모인다.

표본 크기가 커질수록 표본평균의 표준편차(σ/√n)가 작아진다. 표본이 많을수록 표본평균이 모집단 평균에 더 가까이 몰린다는 뜻이다.

예시: 어떤 공장의 볼트 지름이 μ = 10mm, σ = 0.4mm인 분포를 따른다. 볼트 100개를 표본으로 뽑을 때:

$$\bar{X} \sim N\left(10,, \frac{0.16}{100}\right) = N(10,, 0.0016)$$

표본 100개의 평균은 개별 볼트보다 훨씬 덜 흔들리는 분포를 갖는다.

표본평균의 표준편차 σ/√n = 0.4/10 = 0.04mm이다. 개별 볼트의 표준편차(0.4mm)보다 10배 작다.

이것이 다음 시간 통계적 추정의 핵심 근것이다.

자주 혼동하는 점

정규분포를 배울 때 가장 많이 나타나는 혼동이다.

"정규분포 = 모든 분포의 평균"이라는 오해

수입, 인터넷 트래픽, 지진 규모 등은 정규분포가 아닌 멱함수·로그정규분포를 따르는 경우가 많다. 중심극한정리는 표본평균의 분포가 정규분포에 근사한다는 것이지, 원래 데이터 자체가 정규분포를 따른다고 보장하지 않는다. 분포 가정 검증이 항상 선행되어야 한다.

주요 개념

낱말	뜻
정규분포	자연과 사회에서 가장 흔히 나타나는 종 모양의 연속 확률분포. N(μ, σ²)으로 표기
평균 (μ)	정규분포 곡선의 좌우 중심 위치를 결정하는 매개변수
표준편차 (σ)	정규분포 곡선의 퍼짐 정도를 결정하는 매개변수. 분산 σ²의 양의 제곱근
68-95-99.7 규칙	정규분포에서 μ±σ, μ±2σ, μ±3σ 범위에 각각 약 68%, 95%, 99.7%가 포함되는 규칙
표준정규분포	평균이 0, 표준편차가 1인 정규분포. N(0, 1)으로 표기
표준화	X를 Z = (X − μ)/σ로 변환해 N(0, 1)에 맞추는 조작
z값	표준화된 값. 원래 값이 평균에서 표준편차 몇 배만큼 떨어져 있는지를 나타냄
z표	표준정규분포에서 P(0 ≤ Z ≤ z)의 값을 정리한 표
중심극한정리	표본 크기 n이 충분히 크면 표본평균의 분포가 정규분포에 가까워진다는 정리
표본평균	n개의 표본 값의 평균. X̄로 표기하며 X̄ ~ N(μ, σ²/n)에 근사

성적이 왜 항상 종 모양일까 — 정규분포와 Z점수의 비밀

성적이 왜 항상 종 모양일까 — 정규분포와 Z점수의 비밀

오늘의 핵심#

종형 곡선 — 왜 이 모양이 자주 나타나는가?#

68-95-99.7 규칙 — 면적의 비밀#

표준화 — 모든 정규분포를 하나의 척도로#

z표 사용법 — 확률을 읽는다#

중심극한정리 — 왜 정규분포가 어디서나 나타나는가?#

자주 혼동하는 점#

주요 개념#

댓글

오늘의 핵심

종형 곡선 — 왜 이 모양이 자주 나타나는가?

68-95-99.7 규칙 — 면적의 비밀

표준화 — 모든 정규분포를 하나의 척도로

z표 사용법 — 확률을 읽는다

중심극한정리 — 왜 정규분포가 어디서나 나타나는가?

자주 혼동하는 점

주요 개념