정보이득(Information Gain) 개념 정보 이득(Information Gain)은 결정 트리(Decision Tree)에서 엔트로피(Entropy)를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값이다. 결정 트리에서 다양한 노드를 만들고 엔트로피를 구했다면 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성하게 되기에 엔트로피와 정보 이득은 같이 움직인다 생각하면 된다. 엔트로피 정보 이득에 설명에 사용한 데이터는 이전 엔트로피 계산에 사용한 데이터이며, 엔트로피에 대한 포스팅을 읽고 이 내용을 읽으면 좀 더 이해하기 편할 것 같다. [데이터분석] 엔트로피(Entropy) 이해하기 보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에..
보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에서도 곧잘 쓰이는 용어이다. 일단 엔트로피를 가장 많이 활용하는 것 중 하나가 결정 트리(Decision Tree)이다. 결정 트리의 경우 우리가 엔트로피를 이해하고, 정보 이득(Information Gain)도 공식으로 풀어낼 수 있다면 충분히 결정 트리를 구현할 수 있을 정도이다. 엔트로피의 개념 엔트로피는 노드의 불순성(혹은 무작위성)을 나타내며, 1로 갈수록 불순하고, 0으로 갈수록 불순하지 않다는 의미이다. 여기서 불순하지 않다는 것은 잘 섞이지 않았다는 의미이다. 예를 들어, 백인 10명, 흑인 10명이 한 집단에 있다고 하였을 때, 특정 조건으로 이 집단을 2개의 집단으로 분리했다고 가정을 해보자. 이때 집..
EDA(Exploratory Data Analysis) 즉, 탐색적 데이터 분석을 제대로 하려면 파이썬의 numpy, pandas와 같은 라이브러리를 잘 활용해야 한다. 그 중에 pandas는 다양한 형태의 데이터를 매우 쉽게 확인할 수 있는 기능을 제공한다. 우선 이 포스팅을 진행하는데 사용한 데이터로 iris dataset을 활용했는데 header는 일단 직접 달았기 때문에 아래와 같이 파일을 다운로드 받아서 진행하면 유용할 것 같다. 데이터의 일부만 보여주자면 아래와 같이 생긴 녀석이다. sepal_length,sepal_width,petal_length,petal_width,class 1,5.1,3.5,1.4,0.2,Iris-setosa 2,4.9,3,1.4,0.2,Iris-setosa 3,4.7..
베이즈 정리는 일반인들이 알고 있던 통계의 지식을 무너트리는 역할을 한다. 물리학도가 양자역학의 개념을 배울 때 새로운 신세계가 열리는 것처럼 통계에서 베이즈가 그런 역할을 하는 것 같다. 실제로 통계학도 사이에서도 베이즈 정리는 또 다른 통계의 세계이며, 필자의 부하직원에게 베이즈 정리에 대해서 잘 아는가에 대해 물어봤을 때 "저는 그쪽이 아니라 정통파입니다"라는 답변을 들었을 정도이다. 베이즈 정리에 대한 대표적인 예시로, "확률 게임"에 나온 예시이다. 자동차 사고로 사망한 사람의 40%는 안전띠를 매지 않았다고 한다. 그렇다면 60% 안전띠를 매고 죽었다는 의미인데 안전띠가 더 위험한 것이 아닌가? 위 예시를 보면 정말 그럴듯해보인다. 상대방이 통계를 잘 모르면 아무말을 못하고 당할 것만 같다. ..
유클리드 거리(Euclidean Distance)와 함께 어떠한 값들이 얼마나 유사한지 가장 많이 사용하는 알고리즘 중 하나로 코사인 유사도가 있다. 그리고 유클리드 거리를 변형하여 실제 도시들의 모양을 감안해서 구하는 맨하탄 거리(Manhattan Distance)와 같은 알고리즘도 꽤 많이 활용하고 있다. 서울시와 수원시의 거리가 얼마나 가까운가? 예를 들어 도시들간의 거리가 얼마나 가까운지를 구하기 위해서는 유클리드 거리와 같은 알고리즘을 많이 활용할 수 있다. 서울시의 위도와 경도값과 수원시의 위도와 경도 값을 기반으로 둘간의 선을 그은 후, 거리를 구한다면 도시간에 거리를 구할 수 있게 된다. 그러나 한번 이런 문제가 있다고 가정을 해보자. 포유류간 키와 몸무게를 기반으로 얼마나 유사한지를 측정..
같은 코로나 바이러스라고 하더라도 중국과 한국, 그리고 이탈리아, 이란까지 모두 다른 양상을 보이고 있다. 데이터가 많이 축적될수록 비슷해져야 하는 것이 통계이지만 데이터만 보고 해석하면 환경을 놓치는 실수를 저지를 수 있다. 국내 확진자 및 사망자 현황, 질병관리본부 국내에는 여성이 남성보다 약 2천명이 더 걸렸을 정도로 비율이 압도적으로 높다. 이럴 경우 단순히 코로나 바이러스19는 여성에게 취약한 병인가?라는 생각을 할 수 있다. 하지만, 기존에 유사했던 메르스의 경우 반대의 수치인 남성 6, 여성 4의 비율로 걸렸던 것을 기억하면 의문이 남게 된다. 결론적으로 보면, 신천지 사태(신천지에는 여성신도가 많기에)로 인해서 여성 감염자가 기하급수적으로 증가하였다. 그러면 우리는 신천지를 빼야 하는 것일..
게일 섀플리 알고리즘(Gale-Shapley)은 대표적인 매칭 알고리즘으로 일반적인 추천 알고리즘과는 차이가 있다. 우리가 흔히 추천 시스템에 추천 알고리즘을 구현할 때는 1:1이라는 개념을 생각하지 못한다. 넷플릭스(Netflix)의 영화 컨텐츠 추천이라든지, 쇼핑몰에서 연관된 상품을 추천한다던지 혹은 요즘 유행 댓글처럼 "유튜브 알고리즘이 나를 여기로 인도했다"라는 말과 같은 유튜브 알고리즘이라든지 이런것들은 컨텐츠를 추천하는 일대다 추천 알고리즘이다. 기본적으로 추천 시스템은 1:N이라는 개념을 가지기에 배분이라는 개념이 사라진다. 그렇기에 특정 영상들이 쏠리게 되어 있고, 인기가 많은 컨텐츠에 더 많은 사람들이 몰리게 된다. 하지만 매칭 알고리즘 즉, 여기서 설명하는 게일-섀플리 알고리즘은 남녀가..
측정(measurement) - 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 행위를 뜻하며, 어떤 대상의 속성에 숫자를 부여하는 과정이다. 측정의 수준(level of measurement) 질적척도(qualitative scale)- 범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도이며 명목척도와 서열척도(순서척도)가 존재한다.- 자료를 평균으로 사용할 수가 없으며 측정하기는 쉽지만 고급 통계 분석 활용이 어렵다. 명목척도(nominal scale)- 속성을 분류하는 척도, 측정 대상이 어디에 속하는지, nominal(이름뿐인)이라는 의미처럼 값이 의미있는 데이터가 될 수가 없다. - 숫자로 바꿔도 그 값이 크고 작음을 나타내는 ..
확률 표본 추출(Probability Sampling)이란? 모집단을 구성하는 모든 추출 단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법이다. 확률적 표본추출을 사용하려면 표본을 추출하기 전에 표본추출단위가 표본으로 추출될 확률을 밝혀줄 수 있는 정보를 가지고 있어야 한다. 확률 표본 추출 방법에는 단순랜덤 추출, 계통추출, 층화추출, 집락추출이 있다. 단순랜덤 추출(Simple Random Sampling, SRS) 단순랜덤 추출은 단순확률 추출, 단순 무작위 추출 등으로도 불리며, 영어의 앞글자를 따서 SRS라고도 한다. 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. = n/N 이 방식은 대규모 조사에서는 거의 사용되지 않지만 모든 표본..
맨하탄 거리(Manhattan Distance) 혹은 맨해튼 거리는 유클리드 거리(Euclidean Distance)와 함께 매우 기초적인 좌표간의 거리를 구하는 방식이다. 이름에서 뉘앙스가 풍기겠지만, 이 맨하탄은 미국 뉴욕시 행정 구역인 그 맨하탄이 맞다. 맨하탄은 인류 최초의 현대 대도시로 불리며, 맨하탄의 상징적인 이미지는 빌딩숲의 이미지이다. 그러다보니 지금은 매우 흔한 모습이지만, 주먹구구식 그리고 계획적이지 않던 기존의 도시와 달리 매우 체계적이고 계획적이다보니 건물들이 사각형으로 촘촘히 체계적으로 이루어진 잘 정돈된 모습으로 알고리즘 이름을 부여받게 되었다. 맨하탄 거리는 L1 Distance라고도 불린다. L2 Distance가 유클리드 거리인데 그만큼 유클리드보다 공식이 더 쉽기 때문이..
유클리디안 거리(Euclidean Distance) 혹은 유클리드 거리는 매우 심플하고, 베이직한 값들간의 거리를 구하는 알고리즘이다. 이틀 토대로 값들간의 유사도를 구할 수 있어서 유클리디안 거리로 유사도를 측정하는 방식을 유클리디안 유사도(Euclidean Similarity)라고도 하여, 같은 의미로도 인식 될 수 있다. 유클리디안 거리는 우리가 학창 시절(필자는 중학생 시절) 배웠던 피타고라스 정리와 같은 개념이라 생각하면 된다. 피타고라스의 정리는 이미 만들어진 삼각형을 이용한 공식이라 한다면, 유클리디안 거리는 삼각형을 만들어서 계산을 한다는 개념이라 인식하면 된다. 다만 추가적으로 차이점은 유클리디안 거리는 여러차원의 거리를 계산할 수 있다. 그래서 여러차원일 때의 공식을 보면 마치 엄청난 ..
통계학은 이미 많은 범위에서 적용이 되고 있다. 마케팅, 추천, 경영 등등 안쓰이는 것이 없을 정도로 통계는 실생활에 가장 밀접히 다가간 수학적인 학문이 아닐까 싶다. 요즘 R툴이 범용적으로 쓰이고 있고, 회사에서도 데이터분석에 많은 관심을 갖다보니 회의때 통계에 관련된 용어가 심심치 않게 나오는 것을 볼 수 있을 것이다. 통계를 모르면, 회의때 왕따를 당하는 것 같은 소외감이 느껴지기도 할텐데 최소한 이런 소외감을 당하지 않기 위해서는 어느정도의 통계에 관련된 용어는 알아야 될 것이다. 물론 중고등학교때 통계에 대해서 배우지만, 사실 시간이 오래지나서 헷갈리기도 하고 안배웠던 분들도 분명 있을 것이다. 지금 설명하는 통계 용어는 통계를 알기 위해서 최소한에 이해해야 할 지식이다. 모집단(母集團, pop..