대푯값과 산포도
자료를 대표하는 값 — 평균·중앙값·최빈값
자료 여러 개를 하나의 수로 요약한 것을 대푯값이라고 한다. 대표적으로 평균, 중앙값, 최빈값이 있다.
평균
평균은 모든 자료를 더한 뒤 자료의 개수로 나눈 값이다.
한 모둠 5명의 하루 독서 시간(분) 자료를 예로 든다.
| 모둠원 | 독서 시간 |
|---|---|
| 가 | 20 |
| 나 | 30 |
| 다 | 25 |
| 라 | 35 |
| 마 | 40 |
합: 20 + 30 + 25 + 35 + 40 = 150
평균: 150 ÷ 5 = 30분
중앙값
자료를 크기 순서로 줄 세웠을 때 한가운데에 오는 값을 중앙값이라고 한다.
위 자료를 크기 순으로 나열하면 중앙에 오는 값이 중앙값이다.
자료가 짝수 개이면 가운데 두 값의 평균을 중앙값으로 삼는다.
최빈값
자료에서 가장 많이 나오는 값을 최빈값이라고 한다.
신발 매장의 하루 판매 기록을 예로 든다.
| 신발 크기 | 230 | 240 | 250 | 260 | 270 |
|---|---|---|---|---|---|
| 판매 수 | 3 | 7 | 12 | 8 | 2 |
250이 12켤레로 가장 많이 팔렸으므로 최빈값은 250이다. 신발 매장에서는 가장 많이 필요한 크기를 알아야 재고를 채울 수 있으므로, 평균보다 최빈값이 더 유용하다.
어떤 대푯값을 선택할까
| 상황 | 알맞은 대푯값 |
|---|---|
| 자료가 고르게 퍼져 있음 | 평균 |
| 아주 크거나 아주 작은 값이 하나 끼어 있음 | 중앙값 |
| 가장 자주 나타나는 값이 중요함 | 최빈값 |
핵심 오개념 직격 — "평균이 같으면 분포도 같다"
두 모둠의 체육 점수를 비교한다. (모든 점수는 가공 자료입니다.)
모둠 A
| 번호 | 점수 |
|---|---|
| ① | 48 |
| ② | 50 |
| ③ | 50 |
| ④ | 52 |
합 = 200, 평균 = 200 ÷ 4 = 50점
모둠 B
| 번호 | 점수 |
|---|---|
| ① | 20 |
| ② | 40 |
| ③ | 60 |
| ④ | 80 |
합 = 200, 평균 = 200 ÷ 4 = 50점
두 모둠의 평균은 모두 50점이다. 그러나 모둠 A는 48~52점으로 서로 비슷하고, 모둠 B는 20~80점으로 매우 들쑥날쑥하다.
평균만 봐서는 이 차이를 알 수 없다. 자료가 평균에서 얼마나 흩어져 있는지를 나타내는 값이 산포도다.
분산과 표준편차 — 흩어짐을 숫자로
편차
각 자료에서 평균을 뺀 값을 편차라고 한다. 모둠 A와 B의 편차를 계산한다. (평균 = 50)
모둠 A 편차
| 점수 | 편차 (점수 - 50) |
|---|---|
| 48 | -2 |
| 50 | 0 |
| 50 | 0 |
| 52 | +2 |
편차의 합 = -2 + 0 + 0 + 2 = 0
모둠 B 편차
| 점수 | 편차 (점수 - 50) |
|---|---|
| 20 | -30 |
| 40 | -10 |
| 60 | +10 |
| 80 | +30 |
편차의 합 = -30 + (-10) + 10 + 30 = 0
편차를 그냥 합하면 항상 0이다. 양수와 음수가 서로 상쇄되기 때문이다.
분산 = 편차²의 평균
편차를 제곱하면 음수가 사라진다. 제곱한 편차의 평균을 분산이라고 한다.
n은 자료의 개수다.
모둠 A 분산
| 점수 | 편차 | 편차² |
|---|---|---|
| 48 | -2 | 4 |
| 50 | 0 | 0 |
| 50 | 0 | 0 |
| 52 | +2 | 4 |
편차² 합 = 4 + 0 + 0 + 4 = 8
분산 = 8 ÷ 4 = 2
모둠 B 분산
| 점수 | 편차 | 편차² |
|---|---|---|
| 20 | -30 | 900 |
| 40 | -10 | 100 |
| 60 | +10 | 100 |
| 80 | +30 | 900 |
편차² 합 = 900 + 100 + 100 + 900 = 2000
분산 = 2000 ÷ 4 = 500
모둠 A의 분산(2)이 모둠 B(500)보다 훨씬 작다. 모둠 A가 평균 가까이 고르게 모여 있다는 사실이 숫자로 확인된다.
표준편차 = √분산
분산의 단위는 원래 자료 단위의 제곱이다. 점수라면 분산의 단위는 점²이다. 다시 원래 단위로 돌아오려면 제곱근을 취한다.
표준편차(분산의 제곱근, 자료가 평균에서 평균적으로 얼마나 떨어져 있는지를 나타냄)가 작을수록 자료가 평균 가까이 모여 있다.
| 모둠 | 평균 | 분산 | 표준편차 |
|---|---|---|---|
| A | 50 | 2 | √2 ≈ 1.41 |
| B | 50 | 500 | √500 ≈ 22.36 |
자료: 2, 4, 6, 8, 10 (평균 = 6)
댓글
댓글을 작성하려면 로그인이 필요합니다.
첫 댓글을 남겨주세요.