이탈리아의 통계학자이자 경제학자인 코라도 지니(Corrado Gini)의 이름을 따서 지니라고 불리우며, 불평등의 지수를 표현한다. 인구의 다양성을 조사할 때 자주 사용되며, 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 나타낸다. 위 JTBC에 나온 화면처럼, 지니계수가 0으로 갈수록, 평등하며 1로 갈수록 불평등하다고 볼 수 있다. 소득분배의 불평등 외에도, 부의 편중이나 에너지 소비의 불평등에도 활용한다. 위 그래프는 2차 세계대전 이후, 나라별 지니계수이다.지니계수를 토대로 부의편중을 측정하였을 때, 브라질이 압도적으로 현재 1위이다.그래프를 보면 알다시피, BRICS와 미국이 높은 값을 유지하고 있는데..."인구수가 높을 경우 부의 편중이 심할 가능성이 높다"라는 가설을..
의사결정나무의 생성 방법 모든 의사결정나무 알고리즘은 공통점을 가지고 있는데, 바로 부모노드보다 더 순수도가 높은 자식노드를 만든다는 것이다. 순수도가 높은 자식노드를 만들면, 또 그 자식노드의 자식노드는 상위 노드보다 순수도가 높고, 이를 반복하여 의사결정나무를 만들게 된다. 1. 분기의 발견 의사결정나무 생성의 과정을 위해서, 사전에 분류된 레코드들로 이루어진 Training Set(훈련용 집합)이 필요하다. 훈련용 데이터 집합은 입력변수뿐 아니라 목표변수 값도 알고 있어야 한다. 어떤 사례에 대해서 학습을 하려면, 입력값 뿐만 아니라 목표변수 값도 알고 있어야 학습이 되는데..예를 들자면, 어떤 장바구니의 내용에 아래와 같은 물건들이 있다.담배, 남성용 팬츠, 와이셔츠 등의 물건(입력값)을 구입했다..
1. 의사결정나무란? 분류와 예측 모두에서 자주 쓰이는 강력한 기법이다. 일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는데 쓰이는 구조이다.대표적인 예로는 1730년대에 칼 린네가 개발한 생물들을 나눈 종속과목강문계가 좋은 예시이다. 2. 의사결정나무로 할 수 있는 것들분류 : 종속과문강문계와 같이, 특정한 규칙과 패턴등을 토대로 데이터를 분류하는 방법이다. 의사결정나무는 이해가 쉽고 명확하기 때문에 분류에 많이 쓰인다.점수화(스코어링) : 점수를 책정할 수 있다. 분류등을 수행 후, 해당 값에 맞는 값을 책정하여 스코어링이 가능하다.추정 : 연속형 값을 추정하는데 사용하는 것은 그다지 좋은 생각이 아니지만, 추정하는 것도 가능하다.- 좌측은 의사결정나무, 우측..