분류 전체보기(619)
-
[9] Handle missing data (Python Data Analysis, Machine Learning)
Handle missing data - Missing data can be addressed in two main ways: 1. Delete a sample (Row) or column (Feature) with missing data. 2. Use interpolation to predict missing data. - Average, median, frequency, constant, etc. are used. Let's use the code to check. 0. Create a data frame with missing data Calling up required libraries import pandas as pd # When it used to make DataFrame import num..
2021.02.06 -
[9] 누락된 데이터 다루기 (파이썬 데이터분석, 머신러닝)
누락된 데이터 다루기 - 누락된 데이터는 크게 두 가지 방식으로 다룰 수 있다. 1. 누락된 데이터가 있는 표본(Row, Sample)이나 열(Column, feature)을 삭제한다. 2. 보간기법을 사용해 누락된 데이터를 예측한다. - 평균, 중간값, 빈도수, 상수 등을 사용한다. 코드를 활용해 한번 확인해보자. 0. 누락된 데이터가 포함된 데이터 프레임 생성 필요한 라이브러리 불러오기 import pandas as pd # 데이터프레임 만들 때 사용 import numpy as np # 벡터연산을 위해 사용 from sklearn.impute import SimpleImputer # 보간기법에 사용 from io import StringIO # 데이터프레임 만들 때 활용 누락된 데이터가 포함된 데이..
2021.02.05 -
[8] Understanding K-Neighborhood (KNN)
KNN KNN belongs to a typical 'Lazy Learner'. That is, instead of learning the discriminant function from the training data, we proceed with the learning by storing the training dataset in memory. Thanks to this, there is no cost in the learning process. Instead, the computational cost in the prediction phase is high. Memory-based classifiers have the advantage of being able to adapt immediately ..
2021.01.17 -
[8] K-최근접 이웃(KNN) 이해하기
KNN KNN은 전형적인 게으른 학습기(Lazy learner)에 속한다. 즉, 훈련데이터에서 판별함수를 학습하는 대신 훈련 데이터셋을 메모리에 저장하여 학습을 진행한다. 덕분에 학습 과정에서 비용이 전혀 들지 않는다. 대신 예측 단계에서의 계산 비용이 높다. 메모리 기반 방식의 분류기는 수집된 새로운 훈련 데이터에 즉시 적응할 수 있다는 장점이 있다. 하지만 대규모 데이터 셋에서 작업한다면 저장 공간에 문제가 생길 수 있다. 모수 모델과 비모수 모델 모수 모델은 새로운 데이터 포인트를 분류할 수 있는 함수를 학습하기 위해 훈련 데이터셋에서 모델 파라미터를 추정(타깃을 예측)하는 모델을 말한다. 대표적인 모수 모델에는 퍼셉트론, 로지스틱 회귀, 선형 SVM이 있다. 비모수 모델은 고정된 개수의 파라미터로..
2021.01.17 -
[7] About RandomForest
Random forest can be thought of as an ensemble of decision trees. Because individual decision trees have a high variance problem, the goal of Random Forest is to average multiple decision trees to improve generalization performance and reduce the risk of overfitting. Learning Process for Random Forests 1. Draw n random bootstrap samples by allowing redundancy in the training set. 2. Learn the de..
2021.01.07 -
[7] 랜덤 포레스트에 대해서
랜덤포레스트는 의사결정나무의 앙상블로 생각할 수 있다. 개개의 의사결정나무는 분산이 높은 문제가 있기 때문에 여러 의사결정나무의 평균을 내어 일반화 성능을 높이고 과대적합의 위험을 줄이는 것이 랜덤포레스트의 목표이다. 랜덤포레스트의 학습 과정 1. 훈련세트에서 중복을 허용하여 n개의 랜덤한 부트스트랩 샘플을 뽑는다. 2. 부트스트랩 샘플에서 의사결정나무를 학습한다. a. 중복을 허용하지 않고 랜덤하게 d개의 특성을 선택한다. b. 정보 이득과 같은 목적 함수를 기준으로 최선의 분할을 만드는 특성을 사용해 노드를 분할한다. 3. 1, 2번의 단계를 k번 반복한다. 4. 각 의사결정나무의 예측을 모아 다수결 투표로 클래스 레이블을 할당한다. 랜덤포레스트의 특징 - 의사결정나무와는 다르게 학습 시 랜덤한 d개..
2021.01.07