의사결정나무(2)
-
[7] 랜덤 포레스트에 대해서
랜덤포레스트는 의사결정나무의 앙상블로 생각할 수 있다. 개개의 의사결정나무는 분산이 높은 문제가 있기 때문에 여러 의사결정나무의 평균을 내어 일반화 성능을 높이고 과대적합의 위험을 줄이는 것이 랜덤포레스트의 목표이다. 랜덤포레스트의 학습 과정 1. 훈련세트에서 중복을 허용하여 n개의 랜덤한 부트스트랩 샘플을 뽑는다. 2. 부트스트랩 샘플에서 의사결정나무를 학습한다. a. 중복을 허용하지 않고 랜덤하게 d개의 특성을 선택한다. b. 정보 이득과 같은 목적 함수를 기준으로 최선의 분할을 만드는 특성을 사용해 노드를 분할한다. 3. 1, 2번의 단계를 k번 반복한다. 4. 각 의사결정나무의 예측을 모아 다수결 투표로 클래스 레이블을 할당한다. 랜덤포레스트의 특징 - 의사결정나무와는 다르게 학습 시 랜덤한 d개..
2021.01.07 -
[6] 의사결정나무의 정보이득과 불순도
의사결정나무는 일정 기준을 통해 클래스를 분류해나가는 모양이 나무와 같다고 해서 붙여진 이름이다. 의사결정나무의 분류 기준은 정보 이득(information gain)이다. 정보 이득은 불순도를 토대로 결정지을 수 있다. 이름에서도 알 수 있듯이 불순도는 해당 노드(node)에 얼마나 다양한 클래스가 섞여있는지에 대한 지표이다. \( IG(D_p,f) = I(D_p) - \sum_{j=1}^{m}\frac{N_j}{N_p}I(D_j) \) 정보 이득 f : 분할에 사용할 특성 \(D_p\)와 \(D_j\) : 부모와 j번째 자식 노드의 데이터셋 I : 불순도 지표 \(N_p\) : 부모 노드에 있는 샘플 개수 \(N_j\) : j번째 자식 노드에 있는 샘플 개수 간단하게 설명하자면 자식 노드들의 불순도 ..
2021.01.06