[Study] Machine Learning — Naive Bayes

Doyun’s Journey

Published in

Doyun’s Lab

5 min readOct 25, 2020

--

𝖡𝖺𝗒𝖾𝗌 𝖱𝗎𝗅𝖾

e = event or evidence / H = Hypothesis

- Likelihood = hypothesis가 사설이라는 조건에서, evidence이 일어날 확률

- Posterior = evidence가 관측되었을 때, hypothesis가 일어날 확률 (사후확률)

- Prior = evidence를 관측되기 전, hypothesis가 일어날 확률 (사전확률)

- Marginal = 모든 가능한 hypothesis 아래, 새로운 evidence가 일어날 확률

* 중요 수식

장점

- 통계적 추론에 의해 규칙이 정해지고 유연하게 반영됨

- 사전 지식 통합

ex) 바구니 크기에 대한 지식을 바구니 선택 확룰에 반영

단점

- 정확한 값 계산 x, 추론

- feature가 두개로 늘어나면 구하지 못함

- 0이 나올 수 있다

𝖭𝖺𝗂𝗏𝖾 𝖡𝖺𝗒𝖾𝗌 𝖢𝗅𝖺𝗌𝗌𝗂𝖿𝗂𝖾𝗋

- Assumption : Feature들이 서로 독립적

- 예측 확률 값이 0이 나올 수 있는 위험 존재 (Normalization 적용하여 해결)

𝖦𝖺𝗎𝗌𝗌𝗂𝖺𝗇 𝖭𝖺𝗂𝗏𝖾 𝖡𝖺𝗒𝖾𝗌 𝖢𝗅𝖺𝗌𝗌𝗂𝖿𝗂𝖾𝗋

= P(x|class)를 단순히 빈도수에만 기반하여 계산했지만, 특정 분포를 따른다고 가정 가능

· Gaussian Naive Bayes (GNB) Classifier

GNB Classifier 적용

> 위 : NB

- 모든 i에 대해 likelihood 경우의 수 곱하기

- k라는 레이블의 확률 * k라는 레이블일 때 모든 가능한 Feature의 경우의 확률

- arg max yk = 어떤 값에 대해 최대값을 갖는 yk

> 밑 : GNB

* θijk = N(Xnew i; uik, oik)

- N() = Normalization

- k번째 레이블 확률 * k번째 레이블에 대한 M과 sd의 모든 X 정규분포 확률

- P(Y = yk) = Prior (알고싶은 확률)

- 뒷부분 = Likelihood

적용 시, y의 Label 개수가 N개라고 하면, estimate 해야하는 P(y | Xnew)의 실제 개소는 몇 개인가?

- 최소 N-1 (확률은 모두 더해 1 이므로, 나머지 하나는 계산하지 않아도 답이 나옴)

학습 때, mean/variance 값들을 estimate 하는 방법은 ?

MLE

- 모종의 함수 δ : j번째 레이블 Y가 k번째 레이블 Y와 같으면 1, 다르면 0 반환

- j : Train Data의 j번째 Data (0 ~ N-1개의 Data 모두 다룸)

- μik : Feature의 순서에 따른 Label의 순번 교집합 부분

> 위 : 평균

- 분자 : k 레이블인 데이터 j에 대한 Feature i를 모두 더한 값

- 분모 : j번째 데이터의 레이블과 k번째 레이블이 같으면 1, 다르면 0을 반환한 값들의 합

> 아래 : 분산

- 분자 : (k 레이블인 데이터 j에 대한 Feature i 값 — k 레이블의 Feature i의 평균값)의 편차 값의 제곱 합

- 분모 : j번째 데이터의 레이블과 k번째 레이블이 같으면 1, 다르면 0을 반환한 값들의 합

Decision Bounary

- Probability Distribution 모양에 따라 Boundary 모양 바뀜

- XOR과 같은 비선형 패턴의 문제는 해결하지 못함

𝖡𝖺𝗒𝖾𝗌𝗂𝖺𝗇 𝖭𝖾𝗍𝗐𝗈𝗋𝗄

= 랜덤 변수의 집합과 방향성 비순환 그래프를 통해 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델

- 복잡한 결합 분포보다 직접적인 의존성과 지역 분포를 이해하는데 직관적

Feature A와 Feature B로부터 영향을 받은 Feature C

- 방향이 있는 선 : Direct Dependence

- 선이 없는 것 : Conditional Independence (조건부 독립)

Bayesian Network의 6가지 기본 규칙

Conditional Independence

- N은 G와 독립 (R이 주어져 있을 때)

- N과 G는 독립 아님 (R과 D가 주어져 있을 경우, D가 정해진 값이면 N과 G도 서로 영향을 줌 — Explaining Away)

- R, G, D가 주어지면 N과 S는 결정되므로 독립

* Explaining Away

- 서로 연관 없는 S와 R이 W를 설명하기 위해 애쓴다

- W = 1, R = 1 일때, S = 0 확률이 커짐

Machine Learning

Doyun’s Journey

Written by Doyun’s Journey

Editor for

Doyun’s Lab

BS in BigData Engineering

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams