Machine Learning 共筆 Week 5

Training versus Testing

Alvin Lin

Published in

No Free Lunch

4 min readApr 29, 2018

Recap and Preview

前四周的課程我們已經有了一些基本知識跟假設，有一個在使用機器學期的前提假設是： Machine Learning的Hypothesis與Data的分布相似，當Hypothesis不會太多且N夠大時，我們就可以放心的挑選E_in

以下是前四周的簡短回顧

Week1: 希望能夠找到一個g來趨近於f
Week2: 找到一個真的能夠趨近於0的E_in(g)
Week3: 用了Batch & Supervised 的分類方式來學習
Week4: 確實證明了E_in與E_out是足夠接近的

而上方的四周lecture也將Learning主要拆成以下兩個問題：

E_out跟E_in是有關聯的
E_in(g)是否足夠小

但Hypothesis Set(M)的數量會影響學習的成效，也造成了上方兩個主要問題的權衡：

M小的時候，E_out與E_in是接近的，但不一定能夠找到一個讓E_in足夠小的g
M大的時候，兩個問題剛好就會是相反的結果。

找到一個有限的小m，且能夠順利的取代大M，達成Machine Learning的可行性。

Effective Number of Lines

Week4的時候提到了bad data的union bound是考慮所有機率的相加，這在m無限大時將會大於1而失效，因此這個bound實際上是高估的，因為實際上兩個hypothesis之間的差異並沒有那麼大，使得他們的union bound是需要用相加的；而我們也希望能夠找到某些hypothesis是相似的，歸在同一類降低bad event的機率。

PLA原本可以分類的線是無線多條，但當看到一個資料點的時候，線其實就只剩下兩種，兩個資料點四種，三個資料點≤8種，四個資料點≤14種 → Effective Number of Lines

Effective Number of Hypotheses

Dichotomy(二分)：一個Hypothesis只對N個特定的點，可以做出多少個二分的Hypothesis的組合，最多就只有2的N次方種
因為Dichotomy set會因為取的N個x所影響，因此這邊就直接先取”最大的”，意思是說取的某種N個x的組合會讓Dichotomy set最大 → m_H
Growth Function for Positive Rays: Dichotomy只有N+1種
Growth Function for Positive Intervals: Dichotomy同時還是會遠小於2^N
Growth Function for Convex Sets: Dichotomy set 為 2^N

Break Point

不過最終，我們仍是希望growth function的結果可以是多項式(polynomial)而非指數次的。

這邊出現了一個Break Point的定義，第一個可以找到hypothesis數量比2^k小的資料點k，則k+1, k+2, k+3都會無法得到2^k種hypothesis