통계학의 기초적인 용어

    통계학은 이미 많은 범위에서 적용이 되고 있다. 마케팅, 추천, 경영 등등 안쓰이는 것이 없을 정도로 통계는 실생활에 가장 밀접히 다가간 수학적인 학문이 아닐까 싶다. 요즘 R툴이 범용적으로 쓰이고 있고, 회사에서도 데이터분석에 많은 관심을 갖다보니 회의때 통계에 관련된 용어가 심심치 않게 나오는 것을 볼 수 있을 것이다.


    통계를 모르면, 회의때 왕따를 당하는 것 같은 소외감이 느껴지기도 할텐데 최소한 이런 소외감을 당하지 않기 위해서는 어느정도의 통계에 관련된 용어는 알아야 될 것이다.


    물론 중고등학교때 통계에 대해서 배우지만, 사실 시간이 오래지나서 헷갈리기도 하고 안배웠던 분들도 분명 있을 것이다. 지금 설명하는 통계 용어는 통계를 알기 위해서 최소한에 이해해야 할 지식이다.





    모집단(母集團, population or universe) 


    통계를 위한 관심 범위의 대상을 뜻한다. 대선투표에서 대통령 당선 예측을 방송에서 자주 하는데 이럴 경우에는 모집단이 "대한민국 투표권을 지닌 국민 전체"가 모집단이다. 통계를 위해서 가장 먼저 해야 될 것중 하나가 바로 모집단을 선택하는 것인데 모집단부터 잘못되었으면 당연히 결과가 꼬일 수 밖에 없다.


    예를 들어, 누가 대통령이 될 지 통계를 내는데, 모든 국민으로 해서 투표권이 없는 학생들까지 조사를 했다면 당연히 사실과 많이 동떨어진 통계값이 나올 수 밖에 없을 것이다.




    표본(標本, sample)


    모집단이 전체집합이라고 본다면, 표본은 모집단의 부분집합이다. 샘플링(Sampling)이라는 말을 자주 들어봤을 것이다. 어떠한 대상을 데이터분석 해야 할 경우 전체의 데이터를 가져와서 하는데 들어가는 비용이 많기 때문에 일부의 데이터를 추출하여 분석을 하는 것을 샘플링을 분석한다고 한다. 


    요즘 뜨고 있는 빅데이터는 바로 이 표본 분석과는 상반되는 말이다. 기존에 전체 데이터를 분석할 수 없어서 표본으로 분석하였던 것들을 기술의 진화와 하드웨어의 성능이 뛰어나면서 분석하는 범위가 늘어나며 빅데이터가 뜨게 되었고, 인공지능도 마찬가지의 이유로 진화하고 있다.


    표본을 추출하는 것은 빅데이터의 시대에서는 위험할 수 있는 행위일지 모르지만 리서치 조사같은 경우에는 매우 효과적으로 조사할 수 있다.



    전수조사(全數調査)


    전수조사란 관심의 대상이 되는 집단을 이루는 모든 개체들을 조사하여 모집단(조사하고자 하는 대상이 되는 집단 전체)의 특성을 측정하는 방법으로, 통계청에서 5년마다 한번씩 실시하는 인구주택총조사가 그 대표적인 예이다. 



    표본조사(標本調査)


    조사의 대상이 전체가 아니라 표본일 경우, 표본조사라고 한다. 대부분의 조사 방식이 사실 표본조사이고, 전수조사를 하는 경우는 대체로 모집단이 작을 경우 혹은, 표본조사를 하면 안되는 경우(ex: 인구주택총조사)에만 수행된다.



    편차(偏差, deviation)


    편차(deviation)는 관측값과 평균의 차이를 말한다. 대한민국 남성 평균키가 173cm라고 하고, A라는 사람의 키가 175cm일 경우 A라는 사람의 대한민국 남성 평균키와의 편차는 2cm가 된다.



    정규분포(正規分布, normal distribution)


    정규분포는 쉽게 말해서, 통계의 근간이 되는 그래프의 모습이라고도 볼 수 있다. 예를 들어 바로 위에 편차를 설명할 때 적은 남성의 평균키가 대표적인 사례이다. 평균키가 173cm라고 할 경우 정규분포의 모습은 173cm 정도에서 가장 높은 그래프를 보여주면 그 주변의 수치는 점점 낮아지는 모습을 볼 수 있다.


    어떤 데이터가 위와 같은 모양의 그래프를 보여준다면 정규분포의 모습을 보여주는 것이다


    어떠한 데이터가 정규분포의 수치에서 벗어나게 된다면, 해당 값은 표준에서 벗어난 데이터라고 이해해도 될 것이다.

    댓글

    Designed by JB FACTORY