의사결정나무의 생성 방법 모든 의사결정나무 알고리즘은 공통점을 가지고 있는데, 바로 부모노드보다 더 순수도가 높은 자식노드를 만든다는 것이다. 순수도가 높은 자식노드를 만들면, 또 그 자식노드의 자식노드는 상위 노드보다 순수도가 높고, 이를 반복하여 의사결정나무를 만들게 된다. 1. 분기의 발견 의사결정나무 생성의 과정을 위해서, 사전에 분류된 레코드들로 이루어진 Training Set(훈련용 집합)이 필요하다. 훈련용 데이터 집합은 입력변수뿐 아니라 목표변수 값도 알고 있어야 한다. 어떤 사례에 대해서 학습을 하려면, 입력값 뿐만 아니라 목표변수 값도 알고 있어야 학습이 되는데..예를 들자면, 어떤 장바구니의 내용에 아래와 같은 물건들이 있다.담배, 남성용 팬츠, 와이셔츠 등의 물건(입력값)을 구입했다..
1. 의사결정나무란? 분류와 예측 모두에서 자주 쓰이는 강력한 기법이다. 일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는데 쓰이는 구조이다.대표적인 예로는 1730년대에 칼 린네가 개발한 생물들을 나눈 종속과목강문계가 좋은 예시이다. 2. 의사결정나무로 할 수 있는 것들분류 : 종속과문강문계와 같이, 특정한 규칙과 패턴등을 토대로 데이터를 분류하는 방법이다. 의사결정나무는 이해가 쉽고 명확하기 때문에 분류에 많이 쓰인다.점수화(스코어링) : 점수를 책정할 수 있다. 분류등을 수행 후, 해당 값에 맞는 값을 책정하여 스코어링이 가능하다.추정 : 연속형 값을 추정하는데 사용하는 것은 그다지 좋은 생각이 아니지만, 추정하는 것도 가능하다.- 좌측은 의사결정나무, 우측..
1. 데이터 마이닝 데이터 분석, 즉 데이터 마이닝은 Mining 이라는 단어에서 알 수 있듯이, DATA에서 의미를 추출, 캐는 작업을 뜻한다. 좀 더 쉽게 풀이하자면 데이터 안에서 통계적 규칙이나 패턴등을 찾는 행위 및 도구, 기법등을 뜻한다. 빅데이터가 단순히 테라 이상급의 DATA만을 의미하는 것이 아닌 데이터 마이닝도 행위만을 뜻하는 것은 아니다. 위 그림을 보면, 알겠지만 0,1의 Digit들을 정제하여 의미를 찾아내는 것이라고 이해하면 된다. 2. 데이터 마이닝의 절차 데이터마이닝의 일반적인 절차는 우선 데이터를 선택하고, 정제한다.정제된 데이터를 특정 형태로 변형을 한 후, 데이터 마이닝을 거치고 해석을 하는 단계까지 이어지는 비교적 단순한 과정이다. 이를 실생활로 이해를 해보도록 하자. ..