Aaron KimData에 대한 이론적 이해 — Machine learning, Deep learning, Data analysis(본 글은 ‘과학적 추론의 이해’를 읽고 데이터 분석, 머신러닝 측면으로 정리한 내용입니다.)May 2, 2020May 2, 2020
Aaron KimRandomForest의 핵심 — Bootstrap, Bagging, Ensemble, BoostingRandomForest는 여러 개의 Weak learner를 결합하면 Single learner보다 더 좋은 성능을 낼 수 있다는 가정하에 제안된 Decision Tree 기반의 학습 모델이다. RandomForest를 공부하다보면 학습에 관련된…Mar 29, 2020Mar 29, 2020
Aaron Kim이항 분포 (Binomial distribution) — Bernoulli trials, probability distribution function, probability…이항 분포 1번의 시행에서 특정 사건 A가 발생할 확률을 p라 하고, n번의 독립 시행에서 해당 사건 A가 발생할 확률을 확률 질량 함수로 표현한 것이다. 이 시행은 결과가 성공 혹은 실패로 나뉘는 베르누이 시행 (Bernoulli trials)이라Mar 28, 2020Mar 28, 2020
Aaron KimValidation set과 Test set학습 모델의 궁극적인 목표는 관찰되지 않은 데이터에 대한 정확한 예측이다. 그렇기 때문에 학습 모델의 현실적인 성능 평가에는 학습에 관여하지 않은 데이터여야만 한다. 즉, Test set은 모델 학습 과정에 관여해서는 안된다. 이를 위해서…Mar 26, 2020Mar 26, 2020
Aaron Kim단어 (Word)의 중요도를 측정하는 알고리즘 — Text mining, TF-IDF, RAKE, n-gramTF-IDF (Term Frequency — Inverse Document Frequency)Mar 24, 2020Mar 24, 2020
Aaron Kim학습 모델의 overfitting을 막기 위한 방법들Overfitting과 Underfitting Overfitting: 학습 모델이 training set에 존재하는 noise까지 학습하여 test set에서는 정확도가 낮은 상황 Underfitting: 학습 모델이 데이터의 뚜렷한 특징을 찾지…Mar 24, 2020Mar 24, 2020
Aaron Kim카이제곱검정 (Chi-squared test) — 교차분석, 독립사건, 종속사건독립사건과 종속사건 여기서 독립 사건이라 함은 한 사건의 발생 여부가 다른 사건에 영향을 미치지 않음을 의미하고, 종속 사건이는 다른 사건에 영향을 미친다는 의미다. 독립 사건: 발 크기와 머리 길이 종속 사건: 발 크기와 키 카이제곱검정 교차분석이Mar 20, 2020Mar 20, 2020
Aaron Kim중심극한정리 (Central Limit Theorem) -표본평균, 정규분포, bagging, bootstrap중심극한정리, Central Limit Theorem란? 내부 시스템을 알 수 없는 모집단 A에서 크기 n의 표본 K (k_1, k_2,…k_N)개를 추출할 때, 이 n과 K이 충분히 크다면 각 표본 평균의 분포 (sampling…Mar 20, 2020Mar 20, 2020
Aaron Kim선형 회귀의 결정계수 — Linear regression, R squared, determination coefficient선형 회귀 연속형 두 변수 간의 상호 관계를 파악하고자 할 때, 상관 계수 (correlation coefficient)와 선형 회귀 (linear regression)를 이용한다. 본 포스트에서는 kaggle의 weight, height 데이터를…Mar 19, 2020Mar 19, 2020