산점도(Scatter)는 공간 데이터에서 분포를 알아야 할 때 유용하게 사용될 수 있다. 대표적으로 지리적 데이터인 부동산 데이터로 전국에 있는 인구 분포나 지역별 집값 등을 알기에도 유용하다. 본 포스팅은 미국의 지리 데이터세트인 캘리포니아 주택 가격 Data Set을 사용하여 산점도를 구하는 시각화(Visualization) 기법을 알아보도록 한다. 데이터 준비 Housing 데이터 로드 import os import tarfile import urllib.request as urllib import pandas as pd data_url = "https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.tgz..
정보이득(Information Gain) 개념 정보 이득(Information Gain)은 결정 트리(Decision Tree)에서 엔트로피(Entropy)를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값이다. 결정 트리에서 다양한 노드를 만들고 엔트로피를 구했다면 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성하게 되기에 엔트로피와 정보 이득은 같이 움직인다 생각하면 된다. 엔트로피 정보 이득에 설명에 사용한 데이터는 이전 엔트로피 계산에 사용한 데이터이며, 엔트로피에 대한 포스팅을 읽고 이 내용을 읽으면 좀 더 이해하기 편할 것 같다. [데이터분석] 엔트로피(Entropy) 이해하기 보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에..
보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에서도 곧잘 쓰이는 용어이다. 일단 엔트로피를 가장 많이 활용하는 것 중 하나가 결정 트리(Decision Tree)이다. 결정 트리의 경우 우리가 엔트로피를 이해하고, 정보 이득(Information Gain)도 공식으로 풀어낼 수 있다면 충분히 결정 트리를 구현할 수 있을 정도이다. 엔트로피의 개념 엔트로피는 노드의 불순성(혹은 무작위성)을 나타내며, 1로 갈수록 불순하고, 0으로 갈수록 불순하지 않다는 의미이다. 여기서 불순하지 않다는 것은 잘 섞이지 않았다는 의미이다. 예를 들어, 백인 10명, 흑인 10명이 한 집단에 있다고 하였을 때, 특정 조건으로 이 집단을 2개의 집단으로 분리했다고 가정을 해보자. 이때 집..
데이터 분석을 해야 하거나 할 줄 아는 사람이라면 처음에 데이터의 형태를 파악해야 할텐데 히스토그램(Histogram)은 데이터의 분포도를 볼 때 매우 유용한 통계 시각화 기법이다. 원래 통계 기법은 R이 상징적인 언어였으나 최근에는 데이터 분석을 하는 사람들이 굳이 R로 하지 않고 파이썬에서 하는 경우가 많아졌다. 히스토그램용 데이터 가져오기 (housing dataset) import os import tarfile import urllib.request as urllib import pandas as pd data_url = "https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.tgz" data_pa..
EDA(Exploratory Data Analysis) 즉, 탐색적 데이터 분석을 제대로 하려면 파이썬의 numpy, pandas와 같은 라이브러리를 잘 활용해야 한다. 그 중에 pandas는 다양한 형태의 데이터를 매우 쉽게 확인할 수 있는 기능을 제공한다. 우선 이 포스팅을 진행하는데 사용한 데이터로 iris dataset을 활용했는데 header는 일단 직접 달았기 때문에 아래와 같이 파일을 다운로드 받아서 진행하면 유용할 것 같다. 데이터의 일부만 보여주자면 아래와 같이 생긴 녀석이다. sepal_length,sepal_width,petal_length,petal_width,class 1,5.1,3.5,1.4,0.2,Iris-setosa 2,4.9,3,1.4,0.2,Iris-setosa 3,4.7..
베이즈 정리는 일반인들이 알고 있던 통계의 지식을 무너트리는 역할을 한다. 물리학도가 양자역학의 개념을 배울 때 새로운 신세계가 열리는 것처럼 통계에서 베이즈가 그런 역할을 하는 것 같다. 실제로 통계학도 사이에서도 베이즈 정리는 또 다른 통계의 세계이며, 필자의 부하직원에게 베이즈 정리에 대해서 잘 아는가에 대해 물어봤을 때 "저는 그쪽이 아니라 정통파입니다"라는 답변을 들었을 정도이다. 베이즈 정리에 대한 대표적인 예시로, "확률 게임"에 나온 예시이다. 자동차 사고로 사망한 사람의 40%는 안전띠를 매지 않았다고 한다. 그렇다면 60% 안전띠를 매고 죽었다는 의미인데 안전띠가 더 위험한 것이 아닌가? 위 예시를 보면 정말 그럴듯해보인다. 상대방이 통계를 잘 모르면 아무말을 못하고 당할 것만 같다. ..
유클리드 거리(Euclidean Distance)와 함께 어떠한 값들이 얼마나 유사한지 가장 많이 사용하는 알고리즘 중 하나로 코사인 유사도가 있다. 그리고 유클리드 거리를 변형하여 실제 도시들의 모양을 감안해서 구하는 맨하탄 거리(Manhattan Distance)와 같은 알고리즘도 꽤 많이 활용하고 있다. 서울시와 수원시의 거리가 얼마나 가까운가? 예를 들어 도시들간의 거리가 얼마나 가까운지를 구하기 위해서는 유클리드 거리와 같은 알고리즘을 많이 활용할 수 있다. 서울시의 위도와 경도값과 수원시의 위도와 경도 값을 기반으로 둘간의 선을 그은 후, 거리를 구한다면 도시간에 거리를 구할 수 있게 된다. 그러나 한번 이런 문제가 있다고 가정을 해보자. 포유류간 키와 몸무게를 기반으로 얼마나 유사한지를 측정..
같은 코로나 바이러스라고 하더라도 중국과 한국, 그리고 이탈리아, 이란까지 모두 다른 양상을 보이고 있다. 데이터가 많이 축적될수록 비슷해져야 하는 것이 통계이지만 데이터만 보고 해석하면 환경을 놓치는 실수를 저지를 수 있다. 국내 확진자 및 사망자 현황, 질병관리본부 국내에는 여성이 남성보다 약 2천명이 더 걸렸을 정도로 비율이 압도적으로 높다. 이럴 경우 단순히 코로나 바이러스19는 여성에게 취약한 병인가?라는 생각을 할 수 있다. 하지만, 기존에 유사했던 메르스의 경우 반대의 수치인 남성 6, 여성 4의 비율로 걸렸던 것을 기억하면 의문이 남게 된다. 결론적으로 보면, 신천지 사태(신천지에는 여성신도가 많기에)로 인해서 여성 감염자가 기하급수적으로 증가하였다. 그러면 우리는 신천지를 빼야 하는 것일..
게일 섀플리 알고리즘(Gale-Shapley)은 대표적인 매칭 알고리즘으로 일반적인 추천 알고리즘과는 차이가 있다. 우리가 흔히 추천 시스템에 추천 알고리즘을 구현할 때는 1:1이라는 개념을 생각하지 못한다. 넷플릭스(Netflix)의 영화 컨텐츠 추천이라든지, 쇼핑몰에서 연관된 상품을 추천한다던지 혹은 요즘 유행 댓글처럼 "유튜브 알고리즘이 나를 여기로 인도했다"라는 말과 같은 유튜브 알고리즘이라든지 이런것들은 컨텐츠를 추천하는 일대다 추천 알고리즘이다. 기본적으로 추천 시스템은 1:N이라는 개념을 가지기에 배분이라는 개념이 사라진다. 그렇기에 특정 영상들이 쏠리게 되어 있고, 인기가 많은 컨텐츠에 더 많은 사람들이 몰리게 된다. 하지만 매칭 알고리즘 즉, 여기서 설명하는 게일-섀플리 알고리즘은 남녀가..
측정(measurement) - 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 행위를 뜻하며, 어떤 대상의 속성에 숫자를 부여하는 과정이다. 측정의 수준(level of measurement) 질적척도(qualitative scale)- 범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도이며 명목척도와 서열척도(순서척도)가 존재한다.- 자료를 평균으로 사용할 수가 없으며 측정하기는 쉽지만 고급 통계 분석 활용이 어렵다. 명목척도(nominal scale)- 속성을 분류하는 척도, 측정 대상이 어디에 속하는지, nominal(이름뿐인)이라는 의미처럼 값이 의미있는 데이터가 될 수가 없다. - 숫자로 바꿔도 그 값이 크고 작음을 나타내는 ..
확률 표본 추출(Probability Sampling)이란? 모집단을 구성하는 모든 추출 단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법이다. 확률적 표본추출을 사용하려면 표본을 추출하기 전에 표본추출단위가 표본으로 추출될 확률을 밝혀줄 수 있는 정보를 가지고 있어야 한다. 확률 표본 추출 방법에는 단순랜덤 추출, 계통추출, 층화추출, 집락추출이 있다. 단순랜덤 추출(Simple Random Sampling, SRS) 단순랜덤 추출은 단순확률 추출, 단순 무작위 추출 등으로도 불리며, 영어의 앞글자를 따서 SRS라고도 한다. 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. = n/N 이 방식은 대규모 조사에서는 거의 사용되지 않지만 모든 표본..
맨하탄 거리(Manhattan Distance) 혹은 맨해튼 거리는 유클리드 거리(Euclidean Distance)와 함께 매우 기초적인 좌표간의 거리를 구하는 방식이다. 이름에서 뉘앙스가 풍기겠지만, 이 맨하탄은 미국 뉴욕시 행정 구역인 그 맨하탄이 맞다. 맨하탄은 인류 최초의 현대 대도시로 불리며, 맨하탄의 상징적인 이미지는 빌딩숲의 이미지이다. 그러다보니 지금은 매우 흔한 모습이지만, 주먹구구식 그리고 계획적이지 않던 기존의 도시와 달리 매우 체계적이고 계획적이다보니 건물들이 사각형으로 촘촘히 체계적으로 이루어진 잘 정돈된 모습으로 알고리즘 이름을 부여받게 되었다. 맨하탄 거리는 L1 Distance라고도 불린다. L2 Distance가 유클리드 거리인데 그만큼 유클리드보다 공식이 더 쉽기 때문이..