표준편차가 이제 뭔지 알았다면, 표준편차에 대해서 쓰임새도 자세히 알아봐야 할 것이다. 과연 표준편차가 높으면, 좋은걸까? 나쁜걸까? 여러가지 사례를 들어서 확인해보도록 하겠다. 1. 단거리 달리기 어느 단거리 육상 선수 A와 B 선수가 있다. A선수는 100m 평균 기록이 10초 50, 표준편차 0.5 이고, B선수는 100m 평균 기록이 10초 40, 표준편차 0.2 일 경우 위 통계만 봤을 때, 둘중에 어느 선수가 더 우수한 선수일까? 정답은, 알 수가 없다이다. 그럼 이렇게 질문을 해보도록 하자. 어느 100m 대회가 있다. 1위의 기록이 약 10초 15 정도인 대회에서는 누구를 보내야 할까? 이 질문의 답은 A선수이다. A선수는 B선수에 비해 평균적으로는 성적이 떨어지지만, B선수보다 높은 기록..
편차, 분산, 표준편차 모두 단순히 의미만 나열해서 설명을 하면 쉽게 이해가 안될수도 있고, 머리속에 잘 기억이 나지 않는다. 가장 쉬운 방법은 예시이고, 특히 비교를 할 경우 이해가 잘되는데 아래와 같은 사례가 있다고 가정한다. A회사와 B회사가 있는데 각각 직원이 5명밖에 없다. 이 회사 직원들의 연봉을 가지고 표준편차를 구해보자. A회사 1200만원, 1600만원, 5600만원, 6000만원, 7000만원 = 21,400만원 / 5 = 4,280만원 B회사 4000만원, 4500만원, 4250만원, 5000만원, 3650만원 = 21,400만원 / 5 = 4,280만원 두 회사 모두 4,280만원이 평균 연봉인 것은 분명하다. 그러나 같은 금액이라도 위 회사는 단순히 4,280만원이 평균연봉이다로만..
올초, 알파고의 메가쇼킹급 등장으로, 우리나라에도 이제 본격적인 인공지능 시대 신호탄을 쏘아올리게 되었다. 어릴적부터 A.I, 인공지능이라는 말을 수없이 듣고, 영화도 보면서 언제쯤 인공지능 시대가 올까? 라는 생각을 했었지만, 바둑으로 인간을 이긴 이 경악스러운 사건에 국내 뿐만 아니라 전세계가 떠들썩하게 됐었다. 알파고를 한번이라도 이긴, 최초의 인간이 된 이세돌... 현재 알파고는 이세돌이 이겼던 알파고의 수준을 한참 넘어섰다. 바둑에 알파고가 있다면, 또다른 초미의 관심사 자율주행자동차가 있을 것이다."아직 전기차도 제대로 활성화 안됐는데 무슨 자율주행자동차야?" 라고 반문할지 모르지만전기차와 자율주행자동차는 거의 동시다발적으로 활성화 될 것으로 예상한다. 사진 출처, 볼보 오히려, 자율주행자동차..
기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다. 대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다. 너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서... 아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다. 가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다. 숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가?? 숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들..
어떤 학문을 공부할 때, 누구는 핵심만 알면 되는것 아니냐라고 말할지 모르지만, 내 성격상 역사까지 공부를 해야 직성이 풀린다. 통계학을 공부해야 한다면, 즉 통계학의 시초부터 시작해서 언제 부흥을 했고 통계학의 아버지가 누구인지 알아야 화룡점정을 찍었다라는 생각이 든다. 그래서 책부터, 블로그, 위키 등을 통해서, 통계학의 역사를 찾아보도록 하였다. 사실, 통계라는 것이 어느 나라에서 정확히 시작되었는지 아무도 모를 것이다. 역사에만 기록이 되지 않았지만 통계를 이용해 장사를 시작한 사람이 있을수도 있는 까닭에 시작점을 알수가 없다. 다만 확실한건, 통계학은 꽤 오래전부터 많은 나라에서 시도를 했었고, 기록에도 나와 있다는 것이다. 한 예로, 국가가 징세, 징병 등을 목적으로 호적조사나 토지대장등을 만..
통계란, 현재 발생된 현상들을 의미있는 값으로 수치화 시키는 것이라고 볼 수 있다. 통계와 미래 예측을 동일시 하는 경향이 종종 보이는데... 한 예로, 과거에 이러이러한 일이 벌어졌으니, 앞으로도 이러이러한 일들이 벌어질 것이다. 라는 통계 데이터를 통한 추리를 하는 행위이다. 통계와 예측은 각각 "기술통계"와 "추리통계"라는 분야로 불리게 된다. 우리가 흔히 알고 있는 통계는 기술통계로서, 전문적으로 배운 사람은 가설과 예측을 더 잘할 수는 있지만, 통계의 핵심적인 목적은 사실 현상을 파악하기 위함일 것이다. 예를 들어, 세계각국 평균키 사례를 보면 알겠지만, 각국의 평균키로 미래를 예측할 수 있지만(ex: 연도별 증감수치등으로 인해서, 어느나라의 키는 더 커질 것이다) 이 수치의 목적은 현재 우리나..
이탈리아의 통계학자이자 경제학자인 코라도 지니(Corrado Gini)의 이름을 따서 지니라고 불리우며, 불평등의 지수를 표현한다. 인구의 다양성을 조사할 때 자주 사용되며, 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 나타낸다. 위 JTBC에 나온 화면처럼, 지니계수가 0으로 갈수록, 평등하며 1로 갈수록 불평등하다고 볼 수 있다. 소득분배의 불평등 외에도, 부의 편중이나 에너지 소비의 불평등에도 활용한다. 위 그래프는 2차 세계대전 이후, 나라별 지니계수이다.지니계수를 토대로 부의편중을 측정하였을 때, 브라질이 압도적으로 현재 1위이다.그래프를 보면 알다시피, BRICS와 미국이 높은 값을 유지하고 있는데..."인구수가 높을 경우 부의 편중이 심할 가능성이 높다"라는 가설을..
의사결정나무의 생성 방법 모든 의사결정나무 알고리즘은 공통점을 가지고 있는데, 바로 부모노드보다 더 순수도가 높은 자식노드를 만든다는 것이다. 순수도가 높은 자식노드를 만들면, 또 그 자식노드의 자식노드는 상위 노드보다 순수도가 높고, 이를 반복하여 의사결정나무를 만들게 된다. 1. 분기의 발견 의사결정나무 생성의 과정을 위해서, 사전에 분류된 레코드들로 이루어진 Training Set(훈련용 집합)이 필요하다. 훈련용 데이터 집합은 입력변수뿐 아니라 목표변수 값도 알고 있어야 한다. 어떤 사례에 대해서 학습을 하려면, 입력값 뿐만 아니라 목표변수 값도 알고 있어야 학습이 되는데..예를 들자면, 어떤 장바구니의 내용에 아래와 같은 물건들이 있다.담배, 남성용 팬츠, 와이셔츠 등의 물건(입력값)을 구입했다..
1. 의사결정나무란? 분류와 예측 모두에서 자주 쓰이는 강력한 기법이다. 일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는데 쓰이는 구조이다.대표적인 예로는 1730년대에 칼 린네가 개발한 생물들을 나눈 종속과목강문계가 좋은 예시이다. 2. 의사결정나무로 할 수 있는 것들분류 : 종속과문강문계와 같이, 특정한 규칙과 패턴등을 토대로 데이터를 분류하는 방법이다. 의사결정나무는 이해가 쉽고 명확하기 때문에 분류에 많이 쓰인다.점수화(스코어링) : 점수를 책정할 수 있다. 분류등을 수행 후, 해당 값에 맞는 값을 책정하여 스코어링이 가능하다.추정 : 연속형 값을 추정하는데 사용하는 것은 그다지 좋은 생각이 아니지만, 추정하는 것도 가능하다.- 좌측은 의사결정나무, 우측..
1. 데이터 마이닝 데이터 분석, 즉 데이터 마이닝은 Mining 이라는 단어에서 알 수 있듯이, DATA에서 의미를 추출, 캐는 작업을 뜻한다. 좀 더 쉽게 풀이하자면 데이터 안에서 통계적 규칙이나 패턴등을 찾는 행위 및 도구, 기법등을 뜻한다. 빅데이터가 단순히 테라 이상급의 DATA만을 의미하는 것이 아닌 데이터 마이닝도 행위만을 뜻하는 것은 아니다. 위 그림을 보면, 알겠지만 0,1의 Digit들을 정제하여 의미를 찾아내는 것이라고 이해하면 된다. 2. 데이터 마이닝의 절차 데이터마이닝의 일반적인 절차는 우선 데이터를 선택하고, 정제한다.정제된 데이터를 특정 형태로 변형을 한 후, 데이터 마이닝을 거치고 해석을 하는 단계까지 이어지는 비교적 단순한 과정이다. 이를 실생활로 이해를 해보도록 하자. ..
인공지능이라는 개념을 제일 처음 만든 사람은 누구일까? "이미테이션 게임"이라는 영화를 본 사람은 튜링이 마지막에 기계와 인간 사이에서 혼란을 느끼는 장면에 의아해 했을 것이다. 앨런 튜링은, 최초의 컴퓨터(물론 기준을 어떤걸로 잡느냐에 따라서 최초냐 아니냐 말이 많다.)를 만드는 것부터 시작해서 인공지능의 개념까지 만든 컴퓨터계에서 입지전적인 인물이다. 베네딕트 컴버배치와 전혀 안 닮았지만, 왠지 튜링은 베네딕트와 더 어울린다.;;; 사람들마다 인공지능에 대한 기준이 존재한다. 누구는 정말 인간같이 똑같이 생각하는 마치 "매트릭스"에서의 컴퓨터 수준의 인공지능으로 볼 수 있지만, 앨런 튜닝은 간단했다. 인간이 컴퓨터와 대화를 하는데 컴퓨터를 사람으로 착각한다면, 해당 컴퓨터는 사고를 가지고 있고, 그것..