산점도(Scatter)는 공간 데이터에서 분포를 알아야 할 때 유용하게 사용될 수 있다. 대표적으로 지리적 데이터인 부동산 데이터로 전국에 있는 인구 분포나 지역별 집값 등을 알기에도 유용하다. 본 포스팅은 미국의 지리 데이터세트인 캘리포니아 주택 가격 Data Set을 사용하여 산점도를 구하는 시각화(Visualization) 기법을 알아보도록 한다. 데이터 준비 Housing 데이터 로드 import os import tarfile import urllib.request as urllib import pandas as pd data_url = "https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.tgz..
기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다. 대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다. 너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서... 아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다. 가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다. 숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가?? 숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들..