p < 0.05가 인과 관계 증명이 아닌 이유 — 신뢰구간과 가설검정 완전 정복
앞선 글에 정규분포와 표준화를 배웠다. 어떤 분포든 평균을 빼고 표준편차로 나누면 표준정규분포 Z로 변환되고, 그 z값으로 확률을 계산할 수 있다는 것을 익혔다.
앞선 글에서 배운 중심극한 정리도 떠올려 본다. 모집단에서 표본을 뽑을 때마다 표본평균 x̄이 달라지지만, 그 x̄의 분포가 정규분포에 가까워진다는 사실이다.
이 글에서는 그 두 가지를 결합해서 실제로 의사 결정을 내리는 방법을 배운다. "신약이 정말 효과가 있을까?", "여론조사 결과를 얼마나 믿을 수 있을까?" 이 질문들에 수학이 답하는 두 가지 도구가 바로 구간 추정과 가설검정이다.
오늘의 핵심
구간 추정은 표본평균을 출발점으로 삼아 모평균이 포함될 구간을 확률적으로 설정하는 절차이며, 가설검정은 귀무가설이 사실일 때 관측 결과가 얼마나 드문지를 p-값으로 수량화해 기각 여부를 결정하는 절차이다. 두 방법 모두 불확실성을 제거하지 않고 불확실성을 숫자로 관리하는 통계적 사고의 핵심이다.
구간 추정 — "모평균은 어디쯤 있을까?"
먼저 생각해 본다.
표본 n = 100명을 뽑아 조사했더니 표본평균 x̄ = 6.4시간이 나왔다. 모표준편차는 σ = 1.2시간으로 알려져 있다.
x̄ = 6.4는 표본 하나의 값이다. 표본을 다시 뽑으면 6.3이 나올 수도 있고 6.5가 나올 수도 있다. 그렇다면 "μ는 정확히 6.4이다"라고 말하는 것은 너무 단정적이다.
그래서 통계학은 하나의 값 대신 구간으로 답한다. 이것이 구간 추정(표본 통계량을 이용해 모수가 속할 것으로 예상되는 범위를 구하는 방법)이다.
95% 신뢰구간(모수가 포함될 것으로 95%의 신뢰수준에서 설정한 구간)의 공식은 다음과 같다.
$$\bar{x} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$
표본평균을 중심으로 표준오차의 1.96배만큼 좌우 여유를 둔 구간이다.
여기서 1.96은 표준정규분포에서 양쪽 각 2.5%를 잘라낸 z값이다.
계산한다.
$$6.4 - 1.96 \times \frac{1.2}{\sqrt{100}} \leq \mu \leq 6.4 + 1.96 \times \frac{1.2}{\sqrt{100}}$$
표본평균 6.4를 중심으로 표준오차에 1.96을 곱한 폭을 붙이는 단계다.
$$6.4 - 0.235 \leq \mu \leq 6.4 + 0.235$$
0.235시간은 이 표본에서 얻은 95% 수준의 오차 한계다.
$$6.165 \leq \mu \leq 6.635$$
구간의 끝값은 모평균을 하나의 점이 아니라 가능한 범위로 제시한다.
"고3 학생의 평균 수면 시간은 약 6.17시간에서 6.64시간 사이에 있다고 95% 신뢰한다."
신뢰수준의 의미 — 가장 자주 틀리는 부분
오개념 직격부터 한다.
틀린 해석: "μ가 [6.165, 6.635] 안에 있을 확률이 95%이다."
옳은 해석: "이 방법으로 표본을 100번 뽑아 신뢰구간을 100개 만들면, 그 중 약 95개가 μ를 포함한다."
왜 다를까? μ는 고정된 하나의 값이다. "μ가 어디 있을 확률"이라는 표현 자체가 틀리다. μ는 이미 어딘가에 있다. 움직이는 건 매번 바뀌는 신뢰구간 자체이다.
"95% 신뢰"는 특정 구간에 대한 확률 진술이 아니라, 방법의 신뢰성에 대한 진술이다.
| 신뢰수준 | z값 | 오차 한계 (σ=1.2, n=100) |
|---|---|---|
| 90% | 1.645 | ±0.197 |
| 95% | 1.96 | ±0.235 |
| 99% | 2.576 | ±0.309 |
신뢰수준이 높아질수록 구간이 넓어진다. 더 확실하게 보장하려면 더 넓게 잡아야 하는 것은 당연하다.
가설검정 — "이 차이가 우연일까, 진짜일까?"
이제 더 흥미로운 질문으로 넘어간다.
이 질문에 답하는 방법이 가설검정(관측된 데이터가 특정 가설과 얼마나 모순되는지를 확률로 판단해 가설을 채택하거나 기각하는 절차)이다.
가설검정은 두 가설을 세우는 것에서 시작한다.
- 귀무가설 H₀(기본 가설, 효과가 없다·차이가 없다·변화가 없다는 주장): "신약의 효과는 없다. 혈압 변화의 모평균은 0이다."
- 대립가설 H₁(귀무가설에 반대되는 주장, 연구자가 증명하려는 것): "신약의 효과가 있다. 혈압 변화의 모평균은 0이 아니다."
이름이 어렵게 느껴지면 이렇게 기억한다.
형사 재판에서 "유죄가 증명될 때까지 무죄"인 것처럼, 통계에서도 "귀무가설이 틀렸다는 충분한 증거가 나올 때까지 H₀를 유지"한다.
검정 절차 — 4단계
단계를 따라가 본다.
여기서 유의수준(귀무가설이 사실임에도 기각하는 위험을 허용하는 최대 확률, 보통 α = 0.05)과 p-값(귀무가설이 사실일 때 관측값만큼 또는 그보다 극단적인 결과가 나올 확률)이 핵심이다.
p-값의 의미와 한계
p-값이 뭔지 정확하게 이해하는 것이 이 글의 핵심이다.
p = 0.03이라는 뜻은 이것이다. "H₀가 사실이어도 이런 결과가 나올 확률이 3%이다. 드문 일이 일어났거나, H₀가 틀렸을 가능성이 있다."
우리는 α = 0.05로 기준을 정했으니 p < 0.05이면 H₀를 기각한다.
p < 0.05가 아닌 것들 — 오개념 직격
많은 사람이 p < 0.05에 대해 잘못 생각한다. 세 가지를 명확하게 짚다.
오개념 1: "p < 0.05는 인과 관계를 증명한다."
아니다. p < 0.05는 통계적 증거의 강도를 나타낼 뿐이다. 인과 관계는 실험 설계(무작위 배정, 대조군 설정)가 보장한다. 관찰 연구에서 p < 0.05가 나왔다고 해도 "이것 때문에 저것이 생겼다"고 말할 수 없다.
오개념 2: "p = 0.049는 효과가 있고, p = 0.051은 없다."
0.05라는 경계는 관습적 기준이다. p = 0.049와 p = 0.051의 증거 강도 차이는 거의 없다. 마치 시속 99km와 101km가 숫자로는 달라 보여도 현실에서 거의 같은 것처럼 해석하면 된다.
오개념 3: "p-값이 작으면 효과가 크다."
표본이 충분히 크면 아주 작은 효과도 p < 0.05로 나온다. p-값은 효과의 크기가 아니라 결과의 희귀성을 나타낸다. 효과 크기(코헨의 d, 상관계수 r 등)는 별도로 보고해야 한다.
1종 오류와 2종 오류 — 판단이 틀릴 수 있다
검정은 결론을 "기각" 또는 "기각하지 않음"으로 내린다. 그런데 실제 세계와 결론이 어긋날 수 있다.
| H₀가 사실 | H₀가 거짓 | |
|---|---|---|
| H₀ 기각 | 1종 오류 (α) 거짓 경보 | 올바른 결정 (검정력) |
| H₀ 유지 | 올바른 결정 | 2종 오류 (β) 놓친 효과 |
- 1종 오류(귀무가설이 사실인데 기각하는 실수, 거짓 경보): 무고한 사람을 유죄 선고. α = 0.05로 제한.
- 2종 오류(귀무가설이 거짓인데 기각하지 못하는 실수, 놓친 효과): 유죄인 사람을 무죄 방면. β로 표기.
두 오류는 반비례 관계이다. α를 낮추면(기준을 엄격하게 하면) 1종 오류는 줄지만 2종 오류는 늘어난다. 이 균형을 어디서 잡을지는 상황에 따라 다르다.
검정력(귀무가설이 거짓일 때 실제로 기각할 확률, 1 − β)은 표본 크기를 늘리거나 효과 크기가 클수록 높아진다.
세 표상으로 통합 정리
이 글의 핵심을 세 가지 표상으로 묶다.
표상 1 — 실생활 표본 (선거 지지율)
표상 2 — 공식 요약
| 개념 | 식 |
|---|---|
| 95% 신뢰구간 | $\bar{x} \pm 1.96 \cdot \sigma/\sqrt{n}$ |
| 검정통계량 | $z = (\bar{x} - \mu_0) / (\sigma/\sqrt{n})$ |
| 기각 기준 | $p < \alpha$ (보통 0.05) |
표상 3 — 개념 흐름
자주 혼동하는 점
이 글에서 가장 많이 나타나는 오개념이다.
"p < 0.05 = 인과 관계 증명"
p < 0.05는 통계적 연관성의 증거 강도를 말할 뿐이다. 인과 관계(이것 때문에 저것)는 실험 설계가 보장한다.
인과 추론의 필요 조건은 무작위 배정 대조 실험 설계이다. 통계 검정 결과만으로는 충분하지 않다.
주요 개념
| 낱말 | 뜻 |
|---|---|
| 구간 추정 | 표본 통계량을 이용해 모수가 속할 것으로 예상되는 범위를 구하는 방법 |
| 신뢰구간 | 모수가 포함될 것으로 설정한 신뢰수준(예: 95%)의 구간 |
| 신뢰수준 | 같은 방법으로 구간을 반복 생성할 때 모수를 포함하는 구간의 비율 (예: 95%) |
| 귀무가설 H₀ | 효과가 없다·차이가 없다는 기본 가설; 기각 여부를 검정하는 대상 |
| 대립가설 H₁ | 귀무가설에 반대되는 주장; 연구자가 증명하려는 내용 |
| 가설검정 | 데이터가 귀무가설과 얼마나 모순되는지를 확률로 판단해 기각 여부를 결정하는 절차 |
| 유의수준 | 귀무가설이 사실인데도 기각하는 위험을 허용하는 최대 확률 (보통 α = 0.05) |
| p-값 | 귀무가설이 사실일 때 관측값만큼 또는 그보다 극단적인 결과가 나올 확률 |
| 1종 오류 | 귀무가설이 사실인데 기각하는 실수 (거짓 경보, 확률 = α) |
| 2종 오류 | 귀무가설이 거짓인데 기각하지 못하는 실수 (놓친 효과, 확률 = β) |
| 검정력 | 귀무가설이 거짓일 때 실제로 기각에 성공하는 확률 (= 1 − β) |
댓글
댓글을 작성하려면 로그인이 필요합니다.
첫 댓글을 남겨주세요.