인공지능 및 데이터과학/데이터분석 & 통계
데이터마이닝 기법, 의사결정나무 1탄
Steve Jang
2016. 8. 17. 01:38
1. 의사결정나무란?
분류와 예측 모두에서 자주 쓰이는 강력한 기법이다.
일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는데 쓰이는 구조이다.
대표적인 예로는 1730년대에 칼 린네가 개발한 생물들을 나눈 종속과목강문계가 좋은 예시이다.
2. 의사결정나무로 할 수 있는 것들
- 분류 : 종속과문강문계와 같이, 특정한 규칙과 패턴등을 토대로 데이터를 분류하는 방법이다. 의사결정나무는 이해가 쉽고 명확하기 때문에 분류에 많이 쓰인다.
- 점수화(스코어링) : 점수를 책정할 수 있다. 분류등을 수행 후, 해당 값에 맞는 값을 책정하여 스코어링이 가능하다.
- 추정 : 연속형 값을 추정하는데 사용하는 것은 그다지 좋은 생각이 아니지만, 추정하는 것도 가능하다.
- 좌측은 의사결정나무, 우측은 인공신경망으로 예측한 수요사례이다.
위 그림과 같이, 의사결정나무는 값이 범위안에 존재하기 때문에 리니어 모양의 인공신경망에 비해 정확하지가 않다. (가능은 하지만, 비권장이라는 소리)
3. 의사결정나무의 장점
- 별다른 로직이 존재하지 않기 때문에 누구나 이해하기 쉽다.
- 평상시 머리속에 생각하는 사고력으로 누구나 만들수 있다.
포스팅 내용은 위 교재 및 K-MOOC의 한양대학교 데이터 마이닝 강좌를 통하여 정리하였습니다.