데이터 사이언스(2)
-
블로그 운영 계획 및 파이썬 프로젝트 진행상황
데이터 사이언스를 본격적으로 공부하면서 배운 내용들을 블로그에 업로드하겠다는 마음으로 티스토리 계정을 판 지 어언 3-4개월이 지났다. 처음에는 해외 데이터 사이언스 관련 대학원을 갈 생각이 있었기에 영어로 번역까지 해 꾸준히 올리려 노력했다. 하지만 끈기도 없고 온라인보단 오프라인이 익숙한 나는 아날로그 방식의 공부 매체인 종이를 주로 활용했다. 거기에 블로그에 게시물을 정리해서 올리는 것도 귀찮아서 금방 그만두었다. 그렇게 혼자 파이썬과 수학을 공부하며 프로젝트를 진행하던 중에 다른 사람들과 공유하고 싶다는 생각이 확실하게 들어 한 달여만에 다시 블로그에 게시물을 업로드하려고 한다. 프로젝트 현재 전공은 경영학과이지만 20-2학기와 21-1학기는 본격적으로 데이터 사이언스를 공부하기 위해 휴학한 상태..
2021.03.22 -
[7] 랜덤 포레스트에 대해서
랜덤포레스트는 의사결정나무의 앙상블로 생각할 수 있다. 개개의 의사결정나무는 분산이 높은 문제가 있기 때문에 여러 의사결정나무의 평균을 내어 일반화 성능을 높이고 과대적합의 위험을 줄이는 것이 랜덤포레스트의 목표이다. 랜덤포레스트의 학습 과정 1. 훈련세트에서 중복을 허용하여 n개의 랜덤한 부트스트랩 샘플을 뽑는다. 2. 부트스트랩 샘플에서 의사결정나무를 학습한다. a. 중복을 허용하지 않고 랜덤하게 d개의 특성을 선택한다. b. 정보 이득과 같은 목적 함수를 기준으로 최선의 분할을 만드는 특성을 사용해 노드를 분할한다. 3. 1, 2번의 단계를 k번 반복한다. 4. 각 의사결정나무의 예측을 모아 다수결 투표로 클래스 레이블을 할당한다. 랜덤포레스트의 특징 - 의사결정나무와는 다르게 학습 시 랜덤한 d개..
2021.01.07