데이터 분석을 해야 하거나 할 줄 아는 사람이라면 처음에 데이터의 형태를 파악해야 할텐데 히스토그램(Histogram)은 데이터의 분포도를 볼 때 매우 유용한 통계 시각화 기법이다. 원래 통계 기법은 R이 상징적인 언어였으나 최근에는 데이터 분석을 하는 사람들이 굳이 R로 하지 않고 파이썬에서 하는 경우가 많아졌다. 히스토그램용 데이터 가져오기 (housing dataset) import os import tarfile import urllib.request as urllib import pandas as pd data_url = "https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.tgz" data_pa..
기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다. 대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다. 너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서... 아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다. 가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다. 숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가?? 숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들..