정보이득(Information Gain) 개념 정보 이득(Information Gain)은 결정 트리(Decision Tree)에서 엔트로피(Entropy)를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값이다. 결정 트리에서 다양한 노드를 만들고 엔트로피를 구했다면 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성하게 되기에 엔트로피와 정보 이득은 같이 움직인다 생각하면 된다. 엔트로피 정보 이득에 설명에 사용한 데이터는 이전 엔트로피 계산에 사용한 데이터이며, 엔트로피에 대한 포스팅을 읽고 이 내용을 읽으면 좀 더 이해하기 편할 것 같다. [데이터분석] 엔트로피(Entropy) 이해하기 보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에..
보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에서도 곧잘 쓰이는 용어이다. 일단 엔트로피를 가장 많이 활용하는 것 중 하나가 결정 트리(Decision Tree)이다. 결정 트리의 경우 우리가 엔트로피를 이해하고, 정보 이득(Information Gain)도 공식으로 풀어낼 수 있다면 충분히 결정 트리를 구현할 수 있을 정도이다. 엔트로피의 개념 엔트로피는 노드의 불순성(혹은 무작위성)을 나타내며, 1로 갈수록 불순하고, 0으로 갈수록 불순하지 않다는 의미이다. 여기서 불순하지 않다는 것은 잘 섞이지 않았다는 의미이다. 예를 들어, 백인 10명, 흑인 10명이 한 집단에 있다고 하였을 때, 특정 조건으로 이 집단을 2개의 집단으로 분리했다고 가정을 해보자. 이때 집..