캐글(6)
-
[8] K-최근접 이웃(KNN) 이해하기
KNN KNN은 전형적인 게으른 학습기(Lazy learner)에 속한다. 즉, 훈련데이터에서 판별함수를 학습하는 대신 훈련 데이터셋을 메모리에 저장하여 학습을 진행한다. 덕분에 학습 과정에서 비용이 전혀 들지 않는다. 대신 예측 단계에서의 계산 비용이 높다. 메모리 기반 방식의 분류기는 수집된 새로운 훈련 데이터에 즉시 적응할 수 있다는 장점이 있다. 하지만 대규모 데이터 셋에서 작업한다면 저장 공간에 문제가 생길 수 있다. 모수 모델과 비모수 모델 모수 모델은 새로운 데이터 포인트를 분류할 수 있는 함수를 학습하기 위해 훈련 데이터셋에서 모델 파라미터를 추정(타깃을 예측)하는 모델을 말한다. 대표적인 모수 모델에는 퍼셉트론, 로지스틱 회귀, 선형 SVM이 있다. 비모수 모델은 고정된 개수의 파라미터로..
2021.01.17 -
[7] 랜덤 포레스트에 대해서
랜덤포레스트는 의사결정나무의 앙상블로 생각할 수 있다. 개개의 의사결정나무는 분산이 높은 문제가 있기 때문에 여러 의사결정나무의 평균을 내어 일반화 성능을 높이고 과대적합의 위험을 줄이는 것이 랜덤포레스트의 목표이다. 랜덤포레스트의 학습 과정 1. 훈련세트에서 중복을 허용하여 n개의 랜덤한 부트스트랩 샘플을 뽑는다. 2. 부트스트랩 샘플에서 의사결정나무를 학습한다. a. 중복을 허용하지 않고 랜덤하게 d개의 특성을 선택한다. b. 정보 이득과 같은 목적 함수를 기준으로 최선의 분할을 만드는 특성을 사용해 노드를 분할한다. 3. 1, 2번의 단계를 k번 반복한다. 4. 각 의사결정나무의 예측을 모아 다수결 투표로 클래스 레이블을 할당한다. 랜덤포레스트의 특징 - 의사결정나무와는 다르게 학습 시 랜덤한 d개..
2021.01.07 -
[2] 아달린(Adaline, 적응형 선형 뉴런) 구현해보기
본 포스팅은 kaggle에서 bronze 메달을 받은 notebook의 코드를 따왔습니다. 관심 있으신 분은 해당 노트북을 참고해보셔도 좋을 것 같습니다. www.kaggle.com/choihanbin/predict-titanic-survival-by-adaptive-linear-neuron 이전 포스팅에서는 퍼셉트론에 대해 알아봤습니다. 이번 시간에는 이를 약간 변형한 버전인 아달린에 대해 알아보겠습니다. 2020/12/22 - [머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로] - 퍼셉트론(Perceptron) 구현해보기 아달린이란? 아달린은 Adaptive linear neuron의 약자입니다. 적응형 선형 뉴런은 퍼셉트론의 향상 버전이라고 생각할 수 있습니다. 퍼셉트론과의 가장 큰 사이는 가..
2020.12.31 -
[1] 퍼셉트론(Perceptron) 구현해보기
요즘 머신러닝 교과서 with 파이썬, 사이킷런, 텐서플로라는 책을 보면서 공부하고 있어요. 사실 전에 전공수업들을 때 교재여서 과제 제출할 때 참고하는 용도로 읽다가 종강한 뒤에는 책을 안폈어요. ㅎㅎ... 그러다가 최근에 텐서플로에 대해서 알아볼 게 있어서 읽어봤는데 생각보다 자세하고 이해하기 쉽게 써있더라고요. 그래서 이번 기회에 정리하면서 제대로 공부하려고 합니다. 우선 첫 챕터는 머신러닝의 종류와 개념들, 그리고 머신러닝의 작업 흐름에 대해서 설명해요. 수업 시간에 많이 다뤘던 내용이라 이 부분은 한 번 읽고 넘겼습니다! 나중에 기회가 된다면 해당 내용도 다뤄보도록 할게요. 두 번째 챕터는 퍼셉트론을 활용해서 간단한 분류 알고리즘을 직접 만들어보는건데, 읽다가 흥미로워서 정리할 겸 코드를 짜봤습..
2020.12.31 -
캐글 타이타닉 1-2. Titanic Survival Prediction(타이타닉 생존자 예측), EDA Features
Kaggle에 올린 첫 노트북입니다. 전반적인 데이터 분석의 흐름을 알기 위해서 모델의 정확성보단 배운 내용을 활용하는 것에 초점을 맞췄습니다. 링크 : www.kaggle.com/choihanbin/titanic-survival-prediction-eda-ensemble 1.2 EDA Features 1.2.1 Sex with Survived feature # Count plots a feature's number without Survival and feature's number with Survival def count_subplots(data, feature1, hue = 'Survived', ylim = None, xlim = None): f, ax = plt.subplots(2, figsize..
2020.12.28 -
캐글 타이타닉 1-1. Titanic Survival Prediction(타이타닉 생존자 예측), Checking Features
Kaggle에 올린 첫 노트북입니다. 전반적인 데이터 분석의 흐름을 알기 위해서 모델의 정확성보단 배운 내용을 활용하는 것에 초점을 맞췄습니다. 링크 : www.kaggle.com/choihanbin/titanic-survival-prediction-eda-ensemble Titanic Survival Prediction(EDA, Ensemble) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster www.kaggle.com This notebook have Three steps for solve this problem(predict to sur..
2020.12.20