통계학(statistics)은 무엇인가?
- 인공지능 및 데이터과학/데이터분석 & 통계
- 2016. 8. 19.
통계란, 현재 발생된 현상들을 의미있는 값으로 수치화 시키는 것이라고 볼 수 있다.
통계와 미래 예측을 동일시 하는 경향이 종종 보이는데...
한 예로, 과거에 이러이러한 일이 벌어졌으니, 앞으로도 이러이러한 일들이 벌어질 것이다. 라는 통계 데이터를 통한 추리를 하는 행위이다.
통계와 예측은 각각 "기술통계"와 "추리통계"라는 분야로 불리게 된다.
우리가 흔히 알고 있는 통계는 기술통계로서, 전문적으로 배운 사람은 가설과 예측을 더 잘할 수는 있지만, 통계의 핵심적인 목적은 사실 현상을 파악하기 위함일 것이다.
예를 들어, 세계각국 평균키 사례를 보면 알겠지만,
각국의 평균키로 미래를 예측할 수 있지만(ex: 연도별 증감수치등으로 인해서, 어느나라의 키는 더 커질 것이다) 이 수치의 목적은 현재 우리나라는 이정도의 평균키를 가지고 있고, 전 세계 나라들과 한국인들간의 키 차이 등을 파악하기 위함일 것이다.
통계를 하지 않을 경우, 단순히 미국과 한국인들의 키 차이는 클 것이다라고 생각할 수 있지만, 막상 데이터를 펼쳐보면, 네덜란드, 덴마크 정도의 나라가 아니라면, 유럽인들과의 키 차이가 생각보다 많지 않다.
이탈리아의 평균키 176.1cm는 일명, 한국에서도 큰 편이 아닌 보통신장에 불가하다.
이렇듯, 통계학은 현상파악이 주목적, 추리통계인 예측은 부목적이다.
기술통계를 잘 뽑는다고 데이터마이닝을 잘하는건 아니지만, 데이터마이닝을 잘할려면 통계를 배워야 하는건 분명하다. 과거의 데이터 없이 미래를 예측하는건 신내림 받은 무당이나 가능한 얘기이다.
또 다른 대표적인 통계는, 도시별 인구수, 불평등지수 등이 존재할 수 있다. 국가에서는 이 수치들을 중요하게 판단하고 균형적인 발전을 위해서, 사용할 수 있다.
통계학은 어느 분야이든지 거의 안 쓰이는 곳이 없을 정도로 중요한 학문이며, 수학포기자 일명 수포자들은 치를 떨 수 있지만, 중학교 수준의 수학만 하더라도, 충분히 통계를 산정할 수 있다.
수학공식에 처음부터 겁먹지 말고, 수학적으로 접근하지 않는 책부터 읽어보자
많은 통계책은 너무 어렵게 공식을 사용하고, 공식에 치를 떠는 사람들은 책을 보자마자 덮는다.
나 역시 마찬가지였으며, 정말 쉬운책을 구입하고 차근차근 읽어보니 보이기 시작한다.
처음부터 너무 어려운 공식으로 다가가는 것이 아니라, 해당 공식을 친절하게 풀어주면 이해가 된다.
통계를 배울려는 많은 분들이 처음부터 겁을 먹지 말고, 자신에게 맞는 책이나 친절하게 강의하는 블로그, 유튜브 영상들을 보면서 공부하기를 권한다.
'인공지능 및 데이터과학 > 데이터분석 & 통계' 카테고리의 다른 글
데이터의 특징을 보여주는, 도수분포표와 히스토그램 (0) | 2016.08.19 |
---|---|
통계학(statistics)의 역사 (0) | 2016.08.19 |
지니계수(Gini), 모집단 다양성 (0) | 2016.08.18 |
데이터마이닝 기법, 의사결정나무 2탄 (1) | 2016.08.17 |
데이터마이닝 기법, 의사결정나무 1탄 (0) | 2016.08.17 |