결정 트리 혹은 의사결정 나무(Decision Tree) 분류기는 무언가를 설명할 때, 매우 유용한 퍼포먼스를 보여주는 모델이다. 최근에는 설명 가능한 인공지능(Explainable AI, XAI)이라는 것이 이슈이며, 몇몇 국회의원은 IT 기업들의 알고리즘을 공개해야 된다는 이야기까지 나오기도 하였다. 또다른 관점으로는 새로운 서비스의 창출이다. 예를 들어, 설명을 할 수 있을 정도의 모델이라면 리포트(Report)를 보여준다던지, 설명 값을 토대로 다른 서비스를 만들 수도 있을 것이다. 결정 트리는 바로 이러한 방식에 특화된 알고리즘이며, 설명이 가능한 것을 제외하고 나쁘지 않을까 생각할 순 있지만, 아직도 많이 사용될 정도로 성능 또한 뒤쳐지지 않는다. 결정 트리의 구성도 일단 결정 트리인 이유는 ..
의사결정나무의 생성 방법 모든 의사결정나무 알고리즘은 공통점을 가지고 있는데, 바로 부모노드보다 더 순수도가 높은 자식노드를 만든다는 것이다. 순수도가 높은 자식노드를 만들면, 또 그 자식노드의 자식노드는 상위 노드보다 순수도가 높고, 이를 반복하여 의사결정나무를 만들게 된다. 1. 분기의 발견 의사결정나무 생성의 과정을 위해서, 사전에 분류된 레코드들로 이루어진 Training Set(훈련용 집합)이 필요하다. 훈련용 데이터 집합은 입력변수뿐 아니라 목표변수 값도 알고 있어야 한다. 어떤 사례에 대해서 학습을 하려면, 입력값 뿐만 아니라 목표변수 값도 알고 있어야 학습이 되는데..예를 들자면, 어떤 장바구니의 내용에 아래와 같은 물건들이 있다.담배, 남성용 팬츠, 와이셔츠 등의 물건(입력값)을 구입했다..
1. 의사결정나무란? 분류와 예측 모두에서 자주 쓰이는 강력한 기법이다. 일련의 단순한 의사결정 규칙들을 적용시켜 큰 레코드의 집합을 작은 레코드의 집단으로 나누는데 쓰이는 구조이다.대표적인 예로는 1730년대에 칼 린네가 개발한 생물들을 나눈 종속과목강문계가 좋은 예시이다. 2. 의사결정나무로 할 수 있는 것들분류 : 종속과문강문계와 같이, 특정한 규칙과 패턴등을 토대로 데이터를 분류하는 방법이다. 의사결정나무는 이해가 쉽고 명확하기 때문에 분류에 많이 쓰인다.점수화(스코어링) : 점수를 책정할 수 있다. 분류등을 수행 후, 해당 값에 맞는 값을 책정하여 스코어링이 가능하다.추정 : 연속형 값을 추정하는데 사용하는 것은 그다지 좋은 생각이 아니지만, 추정하는 것도 가능하다.- 좌측은 의사결정나무, 우측..