p < 0.05가 인과 관계 증명이 아닌 이유 — 신뢰구간과 가설검정 완전 정복

앞선 글에 정규분포와 표준화를 배웠다. 어떤 분포든 평균을 빼고 표준편차로 나누면 표준정규분포 Z로 변환되고, 그 z값으로 확률을 계산할 수 있다는 것을 익혔다.

앞선 글에서 배운 중심극한 정리도 떠올려 본다. 모집단에서 표본을 뽑을 때마다 표본평균 x̄이 달라지지만, 그 x̄의 분포가 정규분포에 가까워진다는 사실이다.

이 글에서는 그 두 가지를 결합해서 실제로 의사 결정을 내리는 방법을 배운다. "신약이 정말 효과가 있을까?", "여론조사 결과를 얼마나 믿을 수 있을까?" 이 질문들에 수학이 답하는 두 가지 도구가 바로 구간 추정과 가설검정이다.

오늘의 핵심

구간 추정은 표본평균을 출발점으로 삼아 모평균이 포함될 구간을 확률적으로 설정하는 절차이며, 가설검정은 귀무가설이 사실일 때 관측 결과가 얼마나 드문지를 p-값으로 수량화해 기각 여부를 결정하는 절차이다. 두 방법 모두 불확실성을 제거하지 않고 불확실성을 숫자로 관리하는 통계적 사고의 핵심이다.

구간 추정 — "모평균은 어디쯤 있을까?"

먼저 생각해 본다.

표본 n = 100명을 뽑아 조사했더니 표본평균 x̄ = 6.4시간이 나왔다. 모표준편차는 σ = 1.2시간으로 알려져 있다.

x̄ = 6.4는 표본 하나의 값이다. 표본을 다시 뽑으면 6.3이 나올 수도 있고 6.5가 나올 수도 있다. 그렇다면 "μ는 정확히 6.4이다"라고 말하는 것은 너무 단정적이다.

그래서 통계학은 하나의 값 대신 구간으로 답한다. 이것이 구간 추정(표본 통계량을 이용해 모수가 속할 것으로 예상되는 범위를 구하는 방법)이다.

95% 신뢰구간(모수가 포함될 것으로 95%의 신뢰수준에서 설정한 구간)의 공식은 다음과 같다.

$$\bar{x} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$

표본평균을 중심으로 표준오차의 1.96배만큼 좌우 여유를 둔 구간이다.

여기서 1.96은 표준정규분포에서 양쪽 각 2.5%를 잘라낸 z값이다.

계산한다.

$$6.4 - 1.96 \times \frac{1.2}{\sqrt{100}} \leq \mu \leq 6.4 + 1.96 \times \frac{1.2}{\sqrt{100}}$$

표본평균 6.4를 중심으로 표준오차에 1.96을 곱한 폭을 붙이는 단계다.

$$6.4 - 0.235 \leq \mu \leq 6.4 + 0.235$$

0.235시간은 이 표본에서 얻은 95% 수준의 오차 한계다.

$$6.165 \leq \mu \leq 6.635$$

구간의 끝값은 모평균을 하나의 점이 아니라 가능한 범위로 제시한다.

"고3 학생의 평균 수면 시간은 약 6.17시간에서 6.64시간 사이에 있다고 95% 신뢰한다."

신뢰수준의 의미 — 가장 자주 틀리는 부분

오개념 직격부터 한다.

틀린 해석: "μ가 [6.165, 6.635] 안에 있을 확률이 95%이다."

옳은 해석: "이 방법으로 표본을 100번 뽑아 신뢰구간을 100개 만들면, 그 중 약 95개가 μ를 포함한다."

왜 다를까? μ는 고정된 하나의 값이다. "μ가 어디 있을 확률"이라는 표현 자체가 틀리다. μ는 이미 어딘가에 있다. 움직이는 건 매번 바뀌는 신뢰구간 자체이다.

"95% 신뢰"는 특정 구간에 대한 확률 진술이 아니라, 방법의 신뢰성에 대한 진술이다.

신뢰수준	z값	오차 한계 (σ=1.2, n=100)
90%	1.645	±0.197
95%	1.96	±0.235
99%	2.576	±0.309

신뢰수준이 높아질수록 구간이 넓어진다. 더 확실하게 보장하려면 더 넓게 잡아야 하는 것은 당연하다.

가설검정 — "이 차이가 우연일까, 진짜일까?"

이제 더 흥미로운 질문으로 넘어간다.

이 질문에 답하는 방법이 가설검정(관측된 데이터가 특정 가설과 얼마나 모순되는지를 확률로 판단해 가설을 채택하거나 기각하는 절차)이다.

가설검정은 두 가설을 세우는 것에서 시작한다.

귀무가설 H₀(기본 가설, 효과가 없다·차이가 없다·변화가 없다는 주장): "신약의 효과는 없다. 혈압 변화의 모평균은 0이다."
대립가설 H₁(귀무가설에 반대되는 주장, 연구자가 증명하려는 것): "신약의 효과가 있다. 혈압 변화의 모평균은 0이 아니다."

이름이 어렵게 느껴지면 이렇게 기억한다.

형사 재판에서 "유죄가 증명될 때까지 무죄"인 것처럼, 통계에서도 "귀무가설이 틀렸다는 충분한 증거가 나올 때까지 H₀를 유지"한다.

검정 절차 — 4단계

단계를 따라가 본다.

여기서 유의수준(귀무가설이 사실임에도 기각하는 위험을 허용하는 최대 확률, 보통 α = 0.05)과 p-값(귀무가설이 사실일 때 관측값만큼 또는 그보다 극단적인 결과가 나올 확률)이 핵심이다.

p-값의 의미와 한계

p-값이 뭔지 정확하게 이해하는 것이 이 글의 핵심이다.

p = 0.03이라는 뜻은 이것이다. "H₀가 사실이어도 이런 결과가 나올 확률이 3%이다. 드문 일이 일어났거나, H₀가 틀렸을 가능성이 있다."

우리는 α = 0.05로 기준을 정했으니 p < 0.05이면 H₀를 기각한다.

p < 0.05가 아닌 것들 — 오개념 직격

많은 사람이 p < 0.05에 대해 잘못 생각한다. 세 가지를 명확하게 짚다.

오개념 1: "p < 0.05는 인과 관계를 증명한다."

아니다. p < 0.05는 통계적 증거의 강도를 나타낼 뿐이다. 인과 관계는 실험 설계(무작위 배정, 대조군 설정)가 보장한다. 관찰 연구에서 p < 0.05가 나왔다고 해도 "이것 때문에 저것이 생겼다"고 말할 수 없다.

오개념 2: "p = 0.049는 효과가 있고, p = 0.051은 없다."

0.05라는 경계는 관습적 기준이다. p = 0.049와 p = 0.051의 증거 강도 차이는 거의 없다. 마치 시속 99km와 101km가 숫자로는 달라 보여도 현실에서 거의 같은 것처럼 해석하면 된다.

오개념 3: "p-값이 작으면 효과가 크다."

표본이 충분히 크면 아주 작은 효과도 p < 0.05로 나온다. p-값은 효과의 크기가 아니라 결과의 희귀성을 나타낸다. 효과 크기(코헨의 d, 상관계수 r 등)는 별도로 보고해야 한다.

1종 오류와 2종 오류 — 판단이 틀릴 수 있다

검정은 결론을 "기각" 또는 "기각하지 않음"으로 내린다. 그런데 실제 세계와 결론이 어긋날 수 있다.

	H₀가 사실	H₀가 거짓
H₀ 기각	1종 오류 (α) 거짓 경보	올바른 결정 (검정력)
H₀ 유지	올바른 결정	2종 오류 (β) 놓친 효과

1종 오류(귀무가설이 사실인데 기각하는 실수, 거짓 경보): 무고한 사람을 유죄 선고. α = 0.05로 제한.
2종 오류(귀무가설이 거짓인데 기각하지 못하는 실수, 놓친 효과): 유죄인 사람을 무죄 방면. β로 표기.

두 오류는 반비례 관계이다. α를 낮추면(기준을 엄격하게 하면) 1종 오류는 줄지만 2종 오류는 늘어난다. 이 균형을 어디서 잡을지는 상황에 따라 다르다.

검정력(귀무가설이 거짓일 때 실제로 기각할 확률, 1 − β)은 표본 크기를 늘리거나 효과 크기가 클수록 높아진다.

세 표상으로 통합 정리

이 글의 핵심을 세 가지 표상으로 묶다.

표상 1 — 실생활 표본 (선거 지지율)

표상 2 — 공식 요약

개념	식
95% 신뢰구간	$\bar{x} \pm 1.96 \cdot \sigma/\sqrt{n}$
검정통계량	$z = (\bar{x} - \mu_0) / (\sigma/\sqrt{n})$
기각 기준	$p < \alpha$ (보통 0.05)

표상 3 — 개념 흐름

자주 혼동하는 점

이 글에서 가장 많이 나타나는 오개념이다.

"p < 0.05 = 인과 관계 증명"

p < 0.05는 통계적 연관성의 증거 강도를 말할 뿐이다. 인과 관계(이것 때문에 저것)는 실험 설계가 보장한다.

인과 추론의 필요 조건은 무작위 배정 대조 실험 설계이다. 통계 검정 결과만으로는 충분하지 않다.

주요 개념

낱말	뜻
구간 추정	표본 통계량을 이용해 모수가 속할 것으로 예상되는 범위를 구하는 방법
신뢰구간	모수가 포함될 것으로 설정한 신뢰수준(예: 95%)의 구간
신뢰수준	같은 방법으로 구간을 반복 생성할 때 모수를 포함하는 구간의 비율 (예: 95%)
귀무가설 H₀	효과가 없다·차이가 없다는 기본 가설; 기각 여부를 검정하는 대상
대립가설 H₁	귀무가설에 반대되는 주장; 연구자가 증명하려는 내용
가설검정	데이터가 귀무가설과 얼마나 모순되는지를 확률로 판단해 기각 여부를 결정하는 절차
유의수준	귀무가설이 사실인데도 기각하는 위험을 허용하는 최대 확률 (보통 α = 0.05)
p-값	귀무가설이 사실일 때 관측값만큼 또는 그보다 극단적인 결과가 나올 확률
1종 오류	귀무가설이 사실인데 기각하는 실수 (거짓 경보, 확률 = α)
2종 오류	귀무가설이 거짓인데 기각하지 못하는 실수 (놓친 효과, 확률 = β)
검정력	귀무가설이 거짓일 때 실제로 기각에 성공하는 확률 (= 1 − β)

p < 0.05가 인과 관계 증명이 아닌 이유 — 신뢰구간과 가설검정 완전 정복

p < 0.05가 인과 관계 증명이 아닌 이유 — 신뢰구간과 가설검정 완전 정복

오늘의 핵심#

구간 추정 — "모평균은 어디쯤 있을까?"#

신뢰수준의 의미 — 가장 자주 틀리는 부분#

가설검정 — "이 차이가 우연일까, 진짜일까?"#

검정 절차 — 4단계#

p-값의 의미와 한계#

p < 0.05가 아닌 것들 — 오개념 직격#

1종 오류와 2종 오류 — 판단이 틀릴 수 있다#

세 표상으로 통합 정리#

자주 혼동하는 점#

주요 개념#

댓글

오늘의 핵심

구간 추정 — "모평균은 어디쯤 있을까?"

신뢰수준의 의미 — 가장 자주 틀리는 부분

가설검정 — "이 차이가 우연일까, 진짜일까?"

검정 절차 — 4단계

p-값의 의미와 한계

p < 0.05가 아닌 것들 — 오개념 직격

1종 오류와 2종 오류 — 판단이 틀릴 수 있다

세 표상으로 통합 정리

자주 혼동하는 점

주요 개념