편차, 분산의 의미와 표준편차 구하기
편차, 분산, 표준편차 모두 단순히 의미만 나열해서 설명을 하면 쉽게 이해가 안될수도 있고, 머리속에 잘 기억이 나지 않는다. 가장 쉬운 방법은 예시이고, 특히 비교를 할 경우 이해가 잘되는데 아래와 같은 사례가 있다고 가정한다.
A회사와 B회사가 있는데 각각 직원이 5명밖에 없다. 이 회사 직원들의 연봉을 가지고 표준편차를 구해보자.
A회사
1200만원, 1600만원, 5600만원, 6000만원, 7000만원 = 21,400만원 / 5 = 4,280만원
B회사
4000만원, 4500만원, 4250만원, 5000만원, 3650만원 = 21,400만원 / 5 = 4,280만원
두 회사 모두 4,280만원이 평균 연봉인 것은 분명하다. 그러나 같은 금액이라도 위 회사는 단순히 4,280만원이 평균연봉이다로만 설명이 되지 않는다.
A라는 회사는 연봉의 차이가 크며, B라는 회사는 4280만원을 기준으로 차이가 크지 않다.
평균값과 얼만큼 거리가 먼지를 계산하는게 표준편차인데 이 표준편차를 구할려면 과정이 존재한다.
1. 편차(Deviation) 구하기
표준편차를 구할려면, 당연히 편차를 우선 구해야 한다. 편차란 평균값과의 차이인데 A회사와 B회사의 편차는 아래와 같다.
당연한 얘기지만, 편차를 합치면 0값이 나온다. 편차를 올바르게 구했는지 확인하려면, 편차들을 모두 합쳤을 때, 0이 나오면 된다.
2. 분산(Variance)
편차들을 가지고, 표준편차를 구하기 전에 하는 과정이 분산을 구하는 작업이다.
값들이, 플러스(+), 마이너스(-)로 분포되어 있을 경우에는 한가지 단위로 통일해야 하며, (값이 얼마나 멀어졌는지를 구하는 것이기 때문에 플러스, 마이너스는 의미가 없다) 이를 위해 사용하는 것이 제곱평균이 있다.
제곱평균은 평균을 구하고 싶은 수치들을 각각 제곱하여, 평균(전체 더하기 / 개수)을 내고 루트를 하는 작업을 말한다.
A회사를 예를 들면 제곱 평균은
(9486400 + 7182400 + 1742400 + 2958400 + 7398400) / 5 = 루트 5753600 = 2399(소수점 반올림) 값이 나오게 된다. 대략 A회사의 편차와 맞아 떨어지며, A회사의 표준편차는 2399이다.
이 계산 단계에서 루트를 씌우기 전까지의 통계량을 분산이라고 하는데 데이터가 퍼져 있는 상태를 평가할 수 있는 통계량이고, 수학적으로 뛰어난 특성을 가졌다.
그러나 위 수치처럼 데이터가 얼만큼 퍼졌는지를 파악하기에는 값이 너무나 크고, 단위가 바뀌어 버린다.
3. 표준편차(Standard Deviation)
분산까지만 가도, 데이터가 퍼져 있는 상태를 파악할 순 있지만 어느정도 퍼졌는지 감이 오질 않는다. 이는 단위가 너무 커져버렸기에 생긴 문제이다. 이를 해결할려면, 위에 적어 놓은 루트를 추가적으로 수행하면 되는데 5753600이라는 매우 큰 값이 루트로 인해서 2399라는 현실적인 값이 되어버렸다.
이처럼, 같은 방식으로 B 회사의 표준편차를 계산하면
78400 + 48400 + 900 + 518400 + 396900
= 1043000 / 5
= 208600
= 루트 208600
= 약 457
이라는 값이 나온다.
표준편차의 의미가 눈에 확실히 보이는가?
A회사의 표준편차는 2399이고, B회사의 표준편차는 457이다.
즉, A회사는 연봉의 격차가 B회사 훨씬 높다라는 사실을 해당 수치로 알 수 있게 된다.