주사위 두 개 합의 히스토그램이 산 모양인 이유 — 확률분포로 우연을 함수로 그린다
앞선 글에 우리는 적분으로 넓이·부피·길이를 재었다. "작은 조각을 무한히 더한다"는 도구가 얼마나 강력한지 느꼈을 것이다.
이 글에서는 그 적분 도구를 확률 세계로 가져간다. 중3(앞선 글)에서 배운 평균·분산·표준편차, 고1(앞선 글)에서 배운 확률의 곱셈·조건부 확률 — 두 흐름이 오늘 하나로 합류한다.
"주사위 두 개를 던졌을 때 눈의 합이 얼마나 될까?" — 이걸 그래프로 그래프로 나타낼 수 있는가?
확률변수와 확률분포
확률변수란
실험을 할 때마다 결과가 달라지는 수를 확률변수(실험의 결과에 따라 값이 정해지는 변수, 보통 X로 표기)라고 한다.
주사위를 굴리면 1~6 중 하나가 나온다. 어떤 값이 나올지는 굴리기 전에 모르지만, 나올 수 있는 값의 목록과 각각의 확률은 알 수 있다. 이때 "나온 눈의 수"가 확률변수 X이다.
이산확률변수는 취할 수 있는 값이 하나씩 세어지는 확률변수이다. 주사위 눈의 수 X = {1, 2, 3, 4, 5, 6}처럼 딱 떨어지는 값들만 가진다.
연속확률변수는 어느 범위의 실수를 모두 취할 수 있는 확률변수이다. 오늘 정오의 기온처럼 연속적으로 변하는 값이다.
확률분포
확률분포(확률변수가 각 값을 가질 확률을 정리한 것)는 이산의 경우 표와 히스토그램으로, 연속의 경우 밀도 곡선으로 나타낸다.
주사위 한 개의 확률분포표:
| X | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| P(X) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
확률분포의 핵심 성질: 모든 확률의 합 = 1.
주사위 두 개 합과 이항분포
주사위 두 개 합 분포
주사위 두 개를 던질 때 눈의 합 X의 확률분포를 구한다. 전체 경우의 수는 6 × 6 = 36.
| X | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| P(X) | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
히스토그램으로 그리면:
가운데(7)가 높고 양쪽으로 낮아지는 산 모양이다. 히스토그램의 각 막대 넓이가 해당 확률이다.
이항분포 B(n, p)
매번 성공 확률이 p인 실험을 n번 독립적으로 반복할 때 성공 횟수 X의 분포를 이항분포(성공 확률이 일정한 독립 시행을 n번 반복할 때 성공 횟수의 확률분포)라 하고 B(n, p)로 표기한다.
X = k번 성공할 확률:
예시: 합격률 60%인 시험을 4번 볼 때 정확히 3번 합격할 확률.
B(4, 0.6)의 전체 분포:
| k | 0 | 1 | 2 | 3 | 4 |
|---|---|---|---|---|---|
| P(X=k) | 0.0256 | 0.1536 | 0.3456 | 0.3456 | 0.1296 |
모두 더하면 정확히 1이다. 이것이 이항분포가 올바른 확률분포임을 보여 준다.
기댓값 E(X) — 평균을 확률로 다시 쓴다
이산확률변수의 기댓값
앞선 글에서 평균은 "자료를 모두 더해 개수로 나눈 값"이었다. 확률분포에서는 이것을 기댓값(확률분포에서 확률변수가 취할 것으로 기대되는 평균값, E(X))으로 확장한다.
주사위 한 개의 기댓값:
3.5는 주사위에 없는 눈이다! 기댓값은 장기적으로 반복했을 때의 평균이지, 한 번 실험에서 반드시 나오는 값이 아니다.
주사위 두 개 합의 기댓값은 E(X) = 7이다 — 히스토그램의 "무게 중심"과 정확히 일치한다.
이항분포 B(n, p)에는 간결한 공식이 있다.
B(4, 0.6)이면 E(X) = 4 × 0.6 = 2.4.
연속확률변수의 기댓값
연속확률변수에는 확률밀도함수(연속확률변수에서 구간의 확률을 넓이로 나타내는 함수, f(x))가 있다. 구간 [a, b]의 확률은 f(x)의 적분이다.
기댓값도 합(Σ)이 적분(∫)으로 바뀐다.
구간 [0, 1]의 균등분포: f(x) = 1.
구간의 한가운데인 0.5 — 직관과 정확히 일치한다.
분산 Var(X) — 퍼짐을 확률로 다시 쓴다
분산 공식
앞선 글에서 분산은 편차²의 평균이었다. 확률분포에서는:
이산: E(X²) = Σ x² · P(X = x) 연속: E(X²) = ∫ x² · f(x) dx
주사위 한 개의 분산:
이항분포 B(n, p)의 분산:
B(4, 0.6)이면 Var(X) = 4 × 0.6 × 0.4 = 0.96.
세 표상으로 보기 — 주사위 두 개 합
| 표상 | 내용 |
|---|---|
| 히스토그램 (구체) | 막대가 7에서 최대, 양쪽으로 대칭 감소 |
| 확률분포 표 (그림) | P(X=k) = (6− |
| 기댓값·분산 식 (추상) | E(X) = 7, Var(X) = 35/6 ≈ 5.833 |
biology 교차 — 집단유전의 확률분포
생물 집단유전학에서 대립유전자 A의 빈도가 p, a의 빈도가 q = 1−p일 때, 개체 한 마리에 있는 A 개수 X(0, 1, 2)의 확률분포:
이것이 하디-바인베르크 평형이다. 이항분포 B(2, p)와 정확히 같은 구조이다.
E(X) = np = 2p — 개체 한 마리에 있는 A 대립유전자의 기댓값이다. Var(X) = 2p(1−p) = 2pq — p = q = 0.5일 때 최대(유전형 다양성이 가장 높은 상태).
수학의 이항분포가 생물의 유전자풀 구조를 설명하고 있다.
자주 헷갈리는 점
두 번째 오개념: "기댓값은 반드시 나올 수 있는 값이다." 주사위 E(X) = 3.5는 주사위에 없는 눈이다. 기댓값은 장기 평균이지 실제 결과가 아니다.
주요 개념
| 낱말 | 뜻 |
|---|---|
| 확률변수 | 실험의 결과에 따라 값이 정해지는 변수 (보통 X로 표기) |
| 이산확률변수 | 취할 수 있는 값이 하나씩 세어지는 확률변수 |
| 연속확률변수 | 어느 범위의 실수를 모두 취할 수 있는 확률변수 |
| 확률분포 | 확률변수가 각 값을 가질 확률을 정리한 것 |
| 이항분포 | 성공 확률이 일정한 독립 시행을 n번 반복할 때 성공 횟수의 확률분포. B(n, p)로 표기 |
| 기댓값 | 확률분포에서 확률변수가 취할 것으로 기대되는 평균값. E(X) |
| 확률밀도함수 | 연속확률변수에서 구간의 확률을 넓이로 나타내는 함수 f(x) |
| 분산 | 확률분포에서 퍼짐의 정도. Var(X) = E(X²) − [E(X)]² |
댓글
댓글을 작성하려면 로그인이 필요합니다.
첫 댓글을 남겨주세요.