[Study] Machine Learning — Naive Bayes
𝖡𝖺𝗒𝖾𝗌 𝖱𝗎𝗅𝖾
e = event or evidence / H = Hypothesis
- Likelihood = hypothesis가 사설이라는 조건에서, evidence이 일어날 확률
- Posterior = evidence가 관측되었을 때, hypothesis가 일어날 확률 (사후확률)
- Prior = evidence를 관측되기 전, hypothesis가 일어날 확률 (사전확률)
- Marginal = 모든 가능한 hypothesis 아래, 새로운 evidence가 일어날 확률
* 중요 수식
- 장점
- 통계적 추론에 의해 규칙이 정해지고 유연하게 반영됨
- 사전 지식 통합
ex) 바구니 크기에 대한 지식을 바구니 선택 확룰에 반영
- 단점
- 정확한 값 계산 x, 추론
- feature가 두개로 늘어나면 구하지 못함
- 0이 나올 수 있다
𝖭𝖺𝗂𝗏𝖾 𝖡𝖺𝗒𝖾𝗌 𝖢𝗅𝖺𝗌𝗌𝗂𝖿𝗂𝖾𝗋
- Assumption : Feature들이 서로 독립적
- 예측 확률 값이 0이 나올 수 있는 위험 존재 (Normalization 적용하여 해결)
𝖦𝖺𝗎𝗌𝗌𝗂𝖺𝗇 𝖭𝖺𝗂𝗏𝖾 𝖡𝖺𝗒𝖾𝗌 𝖢𝗅𝖺𝗌𝗌𝗂𝖿𝗂𝖾𝗋
= P(x|class)를 단순히 빈도수에만 기반하여 계산했지만, 특정 분포를 따른다고 가정 가능
· Gaussian Naive Bayes (GNB) Classifier
- GNB Classifier 적용
> 위 : NB
- 모든 i에 대해 likelihood 경우의 수 곱하기
- k라는 레이블의 확률 * k라는 레이블일 때 모든 가능한 Feature의 경우의 확률
- arg max yk = 어떤 값에 대해 최대값을 갖는 yk
> 밑 : GNB
* θijk = N(Xnew i; uik, oik)
- N() = Normalization
- k번째 레이블 확률 * k번째 레이블에 대한 M과 sd의 모든 X 정규분포 확률
- P(Y = yk) = Prior (알고싶은 확률)
- 뒷부분 = Likelihood
적용 시, y의 Label 개수가 N개라고 하면, estimate 해야하는 P(y | Xnew)의 실제 개소는 몇 개인가?
- 최소 N-1 (확률은 모두 더해 1 이므로, 나머지 하나는 계산하지 않아도 답이 나옴)
학습 때, mean/variance 값들을 estimate 하는 방법은 ?
MLE
- 모종의 함수 δ : j번째 레이블 Y가 k번째 레이블 Y와 같으면 1, 다르면 0 반환
- j : Train Data의 j번째 Data (0 ~ N-1개의 Data 모두 다룸)
- μik : Feature의 순서에 따른 Label의 순번 교집합 부분
> 위 : 평균
- 분자 : k 레이블인 데이터 j에 대한 Feature i를 모두 더한 값
- 분모 : j번째 데이터의 레이블과 k번째 레이블이 같으면 1, 다르면 0을 반환한 값들의 합
> 아래 : 분산
- 분자 : (k 레이블인 데이터 j에 대한 Feature i 값 — k 레이블의 Feature i의 평균값)의 편차 값의 제곱 합
- 분모 : j번째 데이터의 레이블과 k번째 레이블이 같으면 1, 다르면 0을 반환한 값들의 합
- Decision Bounary
- Probability Distribution 모양에 따라 Boundary 모양 바뀜
- XOR과 같은 비선형 패턴의 문제는 해결하지 못함
𝖡𝖺𝗒𝖾𝗌𝗂𝖺𝗇 𝖭𝖾𝗍𝗐𝗈𝗋𝗄
= 랜덤 변수의 집합과 방향성 비순환 그래프를 통해 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델
- 복잡한 결합 분포보다 직접적인 의존성과 지역 분포를 이해하는데 직관적
Feature A와 Feature B로부터 영향을 받은 Feature C
- 방향이 있는 선 : Direct Dependence
- 선이 없는 것 : Conditional Independence (조건부 독립)
- Bayesian Network의 6가지 기본 규칙
- Conditional Independence
- N은 G와 독립 (R이 주어져 있을 때)
- N과 G는 독립 아님 (R과 D가 주어져 있을 경우, D가 정해진 값이면 N과 G도 서로 영향을 줌 — Explaining Away)
- R, G, D가 주어지면 N과 S는 결정되므로 독립
* Explaining Away
- 서로 연관 없는 S와 R이 W를 설명하기 위해 애쓴다
- W = 1, R = 1 일때, S = 0 확률이 커짐