파이썬(357)
-
[6] 의사결정나무의 정보이득과 불순도
의사결정나무는 일정 기준을 통해 클래스를 분류해나가는 모양이 나무와 같다고 해서 붙여진 이름이다. 의사결정나무의 분류 기준은 정보 이득(information gain)이다. 정보 이득은 불순도를 토대로 결정지을 수 있다. 이름에서도 알 수 있듯이 불순도는 해당 노드(node)에 얼마나 다양한 클래스가 섞여있는지에 대한 지표이다. \( IG(D_p,f) = I(D_p) - \sum_{j=1}^{m}\frac{N_j}{N_p}I(D_j) \) 정보 이득 f : 분할에 사용할 특성 \(D_p\)와 \(D_j\) : 부모와 j번째 자식 노드의 데이터셋 I : 불순도 지표 \(N_p\) : 부모 노드에 있는 샘플 개수 \(N_j\) : j번째 자식 노드에 있는 샘플 개수 간단하게 설명하자면 자식 노드들의 불순도 ..
2021.01.06 -
[3] 로지스틱 회귀분석 원리
로지스틱 회귀분석은 시그모이드 함수를 활성화 함수로, 로그 가능도 함수를 비용함수로 사용한다. 활성화함수 오즈비(odds ratio) : 특정 이벤트가 발생할 확률 $$\frac{P}{(1 - P)}$$ 여기서 P는 양성 샘플일 확률로, 예측하려는 대상이 발생할 확률을 가리킨다. 보통 오즈비에 로그 함수를 취해 로짓 함수를 정의한다. $$ logit(P) = log \frac{P}{(1 - P)} $$ 특성의 가중치 합과 로그 오즈 사이의 선형관계는 다음과 같이 표현이 가능하다. $$ logit(P(y=1 \mid x)) = W_0X_0 + W_1X_1 + W_2X_2 + \cdots + W_mX_m = W^T X$$ * (P(y=1|x)은 x의 상황이 주어졌을 때의 1이 될 조건부확률임. 해당 알고리즘..
2020.12.31 -
[1] 퍼셉트론(Perceptron) 구현해보기
요즘 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로라는 책을 보면서 공부하고 있어요. 사실 전에 전공수업들을 때 교재여서 과제 제출할 때 참고하는 용도로 읽다가 종강한 뒤에는 책을 안폈어요. ㅎㅎ... 그러다가 최근에 텐서플로에 대해서 알아볼 게 있어서 읽어봤는데 생각보다 자세하고 이해하기 쉽게 써있더라고요. 그래서 이번 기회에 정리하면서 제대로 공부하려고 합니다. 우선 첫 챕터는 머신러닝의 종류와 개념들, 그리고 머신러닝의 작업 흐름에 대해서 설명해요. 수업 시간에 많이 다뤘던 내용이라 이 부분은 한 번 읽고 넘겼습니다! 나중에 기회가 된다면 해당 내용도 다뤄보도록 할게요. 두 번째 챕터는 퍼셉트론을 활용해서 간단한 분류 알고리즘을 직접 만들어보는건데, 읽다가 흥미로워서 정리할 겸 코드를 짜봤습..
2020.12.31