데이터의 특징을 보여주는, 도수분포표와 히스토그램

    기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다.

    대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다.



    너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서...

    아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다.



    가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다.

    숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가??


    숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들고 계산해야 될 것이다. 


    그 어떤 신문이나 뉴스 매체를 보아도, 위와 같이 단순히 숫자값들을 나열하여, 소비자, 청취자, 구독자들에게 판단해라라고 하는 경우는 거의 없다. 위 숫자를 토대로, 해당 기업의 현재 상황을 판단하기 쉽게 1차적 가공을 하게 되는데 그것이 바로 "도수분포표"와 "히스토그램" 같은 표와 그래프이다.


    자, 그럼 도수분포표와 히스토그램의 필요성을 느꼈다면, 어떻게 만들어야 되는 것이며 어느정도 효용성이 있는지 살펴보도록 하자.


    먼저 도수분포표를 만드는 과정을 살펴보도록 하겠다.

    도수분포표는 계급이라는 범위가 주어지며, 해당 범위안에 몇명(도수)이 있는지를 표로 나타낸 것이다.

    위 값을 500만원 단위로 나눠서 분포표를 만들어보고자 한다.


    1. 최소, 최대값을 찾는다.


    먼저 가장 적은 값 1660만원과 가장 높은 값은 5500만원이다. 범위를 만들기 위해서 좀 더 대표적인 값으로 치환하여, 최소는 1000만원, 최대는 6000만원으로 변경한다.


    2. 구간(범위)를 만든다.


    범위를 만드는 방법은 무한대로 있을 것이다. 하지만 알기 쉽게, 일단 천만원대로 나누도록 한다.

    그러면 도수분포표는 아래와 같은 표로 나올 수 있을 것이다.






    위 표와 같이 계급별, 도수값들을 분포시킨 것을 도수분포표라고 한다.

    위와 같이 간단한 도수분포표만 있으면 좋으련만, 위 수치만으로는 눈에 확 띄지 않는다. 

    계급값이 뭔가 눈에 확 잡히지 않기 때문이다.



    3. 계급을 대표하는 계급값을 정한다.




    위와같이 계급값을 설정을 하니, 뭔가 더 눈에 잘 띄고 계산하기가 수월해졌다.

    그러나 계급값을 설정하는 것이 맞는지 불안한 사람들이 존재할 것이다. 


    2000만원대의 연봉을 나열하면, 

    2000, 2300, 2350, 2350, 2800, 2900로서, 평균 2450만원이다.

    계급값으로 구한 2500만원 값과 사실 크게 다르지 않다는 사실이 눈에 보인다.


    물론 특정 연봉값에 쏠리는 현상도 보일 수 있는데 이럴 경우 조금 더 구간을 세밀하게 나눠주면 오차범위가 줄어들게 된다. 위 표는 설명을 원활하게 하기 위해서 계급값을 천만원대로 하였다.


    계급값까지 만들어도, 뭔가 또 빠진 것 같다. 평가하기에 좋은 "비율"이 빠졌기 때문이다.



    4. 상대도수를 구한다.


    도수가 전체에서 차지하는 비율을 추가로 넣어보자.



    상대도수 = 도수 / 전체도수

    상대도수를 모두 더하면, 당연히 1이 되어야 한다.



    5. 누적도수를 구한다.


    여기서 마무리를 할 수도 있으나, 도수의 누적값인 누적도수도 추가하여 표를 풍요롭게 해보자.



    표 아래로 내려 갈수록 누적도수의 값을 증가하며, 마지막의 누적도수는 전체 도수의 값과 동일해야 한다.(당연한 얘기이다)



    이제 도수분포표는 작성이 되었다.

    위 표를 보면서, 우리는 확실히 알게 된것들이 존재하는데...

    약 2500만원과 3500만원을 받는 사람들이 전체 직원의 60%를 차지한다는 사실이다.


    수치를 봤을 때 한번에 안 보였던 것들이, 도수분포표를 보게 되면 한눈에 들어오게 된다.

    이 표는, 데이터가 아무리 많아도 쉽게 눈에 들어온다. 바로 상대도수(비율)이 존재하기 때문이다.




    도수분포표를 보면서도 사실 충분히 해당 내용을 파악 할 순 있지만, 시간과 노력이 들어가는 건 사실이다. 그래서 도수분포표를 좀 더 시각화하고 단순화하는 히스토그램을 사용하여 한눈에 들어오게 비쥬얼 작업을 추가적으로 하게 된다.


    그래프만큼 수치의 변화를 한눈에 보여주는 것은 없기 때문이다.



    위 히스토그램을 토대로, 세로축(도수), 가로축(계급)을 넣어서 파워포인트로 구현해보았다.

    표에서 보여지던, 상대도수가 좀 더 명확히 보인다.


    2500과 3500구간을 비슷하고, 4500까지도 큰 차이가 없으나, 1500과 5500 비율은 전체의 각각 10% 밖에 차지 하지 않을 정도로 미비하다.


    위 그래프를 통해 해석이 사실 다를 수 있다.

    누구는...


    1. 직원들이 2500~4500만원대의 인원들로 포진되어 있구나...
    2. 1500만원대밖에 안주는 인원들도 있구나...

    해석은 데이터마이너, 데이터사이언티스트 혹은 통계학자 혹은 이 수치를 조사하는 실무자들이나 경영진이 할 수 밖에 없다. 통계는 단순히 현상을 보여주는 것이고, 이 통계를 토대로 해석을 하는건 지극히 주관적인 역량이다.

    즉 위 수치는 통계학을 공부하는 사람이거나, 해당 실무진이면 누구나 똑같이 뽑을 수 있어야 하지만, 해석은 각자 다르다. 컵에 물이 50%가 있을 때 누구는 "반이나 남았네" 또 다른 사람은 "반밖에 없네"로 해석이 갈리듯, 그건 해석하는 사람의 역량이지 기술통계하는 사람의 역량은 아니다.


    댓글

    Designed by JB FACTORY