[6] 의사결정나무의 정보이득과 불순도
의사결정나무는 일정 기준을 통해 클래스를 분류해나가는 모양이 나무와 같다고 해서 붙여진 이름이다. 의사결정나무의 분류 기준은 정보 이득(information gain)이다. 정보 이득은 불순도를 토대로 결정지을 수 있다. 이름에서도 알 수 있듯이 불순도는 해당 노드(node)에 얼마나 다양한 클래스가 섞여있는지에 대한 지표이다. \( IG(D_p,f) = I(D_p) - \sum_{j=1}^{m}\frac{N_j}{N_p}I(D_j) \) 정보 이득 f : 분할에 사용할 특성 \(D_p\)와 \(D_j\) : 부모와 j번째 자식 노드의 데이터셋 I : 불순도 지표 \(N_p\) : 부모 노드에 있는 샘플 개수 \(N_j\) : j번째 자식 노드에 있는 샘플 개수 간단하게 설명하자면 자식 노드들의 불순도 ..
2021.01.06