유클리디안 거리(Euclidean Distance) 혹은 유클리드 거리는 매우 심플하고, 베이직한 값들간의 거리를 구하는 알고리즘이다. 이틀 토대로 값들간의 유사도를 구할 수 있어서 유클리디안 거리로 유사도를 측정하는 방식을 유클리디안 유사도(Euclidean Similarity)라고도 하여, 같은 의미로도 인식 될 수 있다. 유클리디안 거리는 우리가 학창 시절(필자는 중학생 시절) 배웠던 피타고라스 정리와 같은 개념이라 생각하면 된다. 피타고라스의 정리는 이미 만들어진 삼각형을 이용한 공식이라 한다면, 유클리디안 거리는 삼각형을 만들어서 계산을 한다는 개념이라 인식하면 된다. 다만 추가적으로 차이점은 유클리디안 거리는 여러차원의 거리를 계산할 수 있다. 그래서 여러차원일 때의 공식을 보면 마치 엄청난 ..
통계학은 이미 많은 범위에서 적용이 되고 있다. 마케팅, 추천, 경영 등등 안쓰이는 것이 없을 정도로 통계는 실생활에 가장 밀접히 다가간 수학적인 학문이 아닐까 싶다. 요즘 R툴이 범용적으로 쓰이고 있고, 회사에서도 데이터분석에 많은 관심을 갖다보니 회의때 통계에 관련된 용어가 심심치 않게 나오는 것을 볼 수 있을 것이다. 통계를 모르면, 회의때 왕따를 당하는 것 같은 소외감이 느껴지기도 할텐데 최소한 이런 소외감을 당하지 않기 위해서는 어느정도의 통계에 관련된 용어는 알아야 될 것이다. 물론 중고등학교때 통계에 대해서 배우지만, 사실 시간이 오래지나서 헷갈리기도 하고 안배웠던 분들도 분명 있을 것이다. 지금 설명하는 통계 용어는 통계를 알기 위해서 최소한에 이해해야 할 지식이다. 모집단(母集團, pop..
K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으로, 컴퓨터 스스로 어떠한 해답을 찾아내는 것을 말한다. 예를 들어, 남자와 여자를 분류하고 싶다라는 것은 이미 목적이 존재하고 값이 존재하기 때문에 비지도학습이 될수 없지만 컴퓨터 스스로 데이터를 분류하다가 남자와 여자의 특성 차이를 깨닫고 분류했다면, 비지도학습이 되는 것이다. K-Means는 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 다음 수행에서는 좀 더 중심에 위치한 중심값을 선정하고, 분류하고 이러한 과정을 반복하여 더이상 분류가 되지 않을 경우에 해당..
웹 마이닝 혹은 웹 데이터 마이닝은 일반적으로 웹으로 통한 모든 것들을 분석해서 얻는 마이닝을 뜻한다.예를 들어, 서버에서 쌓이는 웹로그 라든지, 사용자의 행동이라든지, 사용자들이 작성한 웹 콘텐츠 등 웹으로 얻어진 모든 것들을 포함한다. source, http://www.kdnuggets.com 이러한 Data 들을 분석하여 유용한 정보를 찾아내고, insight를 얻어내는 것이 핵심이라고 할 수 있다. 1. 웹으로부터 얻어지는 모든 데이터를 분석하는, 웹마이닝의 개요가. 웹마이닝(Web Mining)의 개념- 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 기법- 웹 환경에서 얻어지는 고객의 정보, 데이터로 부터 특정 행위, 패턴 등의 유용한 정보를 이용하여 마케팅 및 ..
우선 정규분포란, 가장 많이 주변에서 볼 수 있는 데이터 분포(데이터가 흩어져 있는 것)를 말한다. 예를 들면, 고3 남학생의 키의 분포라든지, 주식의 수익률이라든지... 흩어져 있는 데이터를 모와, 시각화했을 때, 산처럼 보여지는 것을 정규분포라고 한다. 정규분포는 위와 같은 그래프의 모습을 보여준다. 표준 정규분포는 가장 많이 발생하는 정규분포를 셋트로 만들었다고 보면 된다.정규분포중 기준이 되는 것이므로, 일반적으로 데이터 분포가 정규분포의 모습을 띄게 되면, 표준정규분포를 기준으로 예측등의 행위를 할 수 가 있다. 평균값은 뮤, 표준편차 기호는 시그마라고 부른다. 위 그래프는 표준정규분포를 보여주는 그래프이다.평균값을 기준으로 표준편차의 값에 따라서, 그래프의 값이 급격히 떨어지는 것을 볼 수 있..
통계학에서 금융상품의 샤프지수를 왜 설명을 하느냐라고 반문하는 분들도 계실것이나, 사실 샤프지수는 통계학에서 가장 중요한 표준편차로 만들어진 공식이자, 지수이다. 표준편차를 설명하면서, 하이 리스크 하이 리턴에 대해서 포스팅을 한 적이 있는데 표준편차 만으로 투자를 판단하기가 매우 힘들다. 하이 리스크(높은 표준편차)와 로우 리스크(낮은 표준편차)는 투자자의 성향, 그리고 판단에 따라서 하는 행동일 뿐이지. 하이 리스크가 로우 리스크보다 좋다 나쁘다를 단정 지을 수가 없다. 표준편차가 높으면 좋을까? 나쁠까? 편차, 분산의 의미와 표준편차 구하기 예를 들어, 대표적인 투자자인 워렌 버핏은 IT쪽은 투자를 하지 않기로 유명하다. IT쪽은 시장이 너무나 빨리 변하고, 판단하기가 힘들다는 이유에서 이다. 즉,..
표준편차가 이제 뭔지 알았다면, 표준편차에 대해서 쓰임새도 자세히 알아봐야 할 것이다. 과연 표준편차가 높으면, 좋은걸까? 나쁜걸까? 여러가지 사례를 들어서 확인해보도록 하겠다. 1. 단거리 달리기 어느 단거리 육상 선수 A와 B 선수가 있다. A선수는 100m 평균 기록이 10초 50, 표준편차 0.5 이고, B선수는 100m 평균 기록이 10초 40, 표준편차 0.2 일 경우 위 통계만 봤을 때, 둘중에 어느 선수가 더 우수한 선수일까? 정답은, 알 수가 없다이다. 그럼 이렇게 질문을 해보도록 하자. 어느 100m 대회가 있다. 1위의 기록이 약 10초 15 정도인 대회에서는 누구를 보내야 할까? 이 질문의 답은 A선수이다. A선수는 B선수에 비해 평균적으로는 성적이 떨어지지만, B선수보다 높은 기록..
편차, 분산, 표준편차 모두 단순히 의미만 나열해서 설명을 하면 쉽게 이해가 안될수도 있고, 머리속에 잘 기억이 나지 않는다. 가장 쉬운 방법은 예시이고, 특히 비교를 할 경우 이해가 잘되는데 아래와 같은 사례가 있다고 가정한다. A회사와 B회사가 있는데 각각 직원이 5명밖에 없다. 이 회사 직원들의 연봉을 가지고 표준편차를 구해보자. A회사 1200만원, 1600만원, 5600만원, 6000만원, 7000만원 = 21,400만원 / 5 = 4,280만원 B회사 4000만원, 4500만원, 4250만원, 5000만원, 3650만원 = 21,400만원 / 5 = 4,280만원 두 회사 모두 4,280만원이 평균 연봉인 것은 분명하다. 그러나 같은 금액이라도 위 회사는 단순히 4,280만원이 평균연봉이다로만..
기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다. 대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다. 너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서... 아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다. 가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다. 숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가?? 숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들..
어떤 학문을 공부할 때, 누구는 핵심만 알면 되는것 아니냐라고 말할지 모르지만, 내 성격상 역사까지 공부를 해야 직성이 풀린다. 통계학을 공부해야 한다면, 즉 통계학의 시초부터 시작해서 언제 부흥을 했고 통계학의 아버지가 누구인지 알아야 화룡점정을 찍었다라는 생각이 든다. 그래서 책부터, 블로그, 위키 등을 통해서, 통계학의 역사를 찾아보도록 하였다. 사실, 통계라는 것이 어느 나라에서 정확히 시작되었는지 아무도 모를 것이다. 역사에만 기록이 되지 않았지만 통계를 이용해 장사를 시작한 사람이 있을수도 있는 까닭에 시작점을 알수가 없다. 다만 확실한건, 통계학은 꽤 오래전부터 많은 나라에서 시도를 했었고, 기록에도 나와 있다는 것이다. 한 예로, 국가가 징세, 징병 등을 목적으로 호적조사나 토지대장등을 만..
통계란, 현재 발생된 현상들을 의미있는 값으로 수치화 시키는 것이라고 볼 수 있다. 통계와 미래 예측을 동일시 하는 경향이 종종 보이는데... 한 예로, 과거에 이러이러한 일이 벌어졌으니, 앞으로도 이러이러한 일들이 벌어질 것이다. 라는 통계 데이터를 통한 추리를 하는 행위이다. 통계와 예측은 각각 "기술통계"와 "추리통계"라는 분야로 불리게 된다. 우리가 흔히 알고 있는 통계는 기술통계로서, 전문적으로 배운 사람은 가설과 예측을 더 잘할 수는 있지만, 통계의 핵심적인 목적은 사실 현상을 파악하기 위함일 것이다. 예를 들어, 세계각국 평균키 사례를 보면 알겠지만, 각국의 평균키로 미래를 예측할 수 있지만(ex: 연도별 증감수치등으로 인해서, 어느나라의 키는 더 커질 것이다) 이 수치의 목적은 현재 우리나..
이탈리아의 통계학자이자 경제학자인 코라도 지니(Corrado Gini)의 이름을 따서 지니라고 불리우며, 불평등의 지수를 표현한다. 인구의 다양성을 조사할 때 자주 사용되며, 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 나타낸다. 위 JTBC에 나온 화면처럼, 지니계수가 0으로 갈수록, 평등하며 1로 갈수록 불평등하다고 볼 수 있다. 소득분배의 불평등 외에도, 부의 편중이나 에너지 소비의 불평등에도 활용한다. 위 그래프는 2차 세계대전 이후, 나라별 지니계수이다.지니계수를 토대로 부의편중을 측정하였을 때, 브라질이 압도적으로 현재 1위이다.그래프를 보면 알다시피, BRICS와 미국이 높은 값을 유지하고 있는데..."인구수가 높을 경우 부의 편중이 심할 가능성이 높다"라는 가설을..