Machine Learning學習日記 — Coursera篇 (Week 6.5):Data for Machine Learning

3 min readJun 30, 2016

Using Large Data Sets

回目錄：Coursera章節
上一篇：Handling Skewed Data
下一篇：Large Margin Classification(上)

有一句話是這麼說的：

It’s not who has the best algorithm that wins, it’s who has the most data.

但是並不是所有的演算法只要找到了超多的資料就可以絕大部份地提升了其預測的準確度

比方說：若是只給予房屋大小這個資料，那麼縱使我們有著一百萬、一千萬筆的數據也沒有辦法使演算法的預測準度上升

相反的例子是：假設我們要藉由判斷一個空格的前後文來得知其是否可以填入某些單字時，而我們給了大量的訓練數據。這時就可以很大程度地提升了此函式的預測程度。

這兩者的關鍵點便在於：features是否決定了足夠資訊
而最好的判斷方式就是，當給予人類同樣的feature時，他能否從中判斷結果？

也因此，若是我們使用了大量的feature，足以提供預測所需的資訊(high variance)，並且擁有著大量的訓練數據時，我們便可以推得：

(1) J_train(theta)極低 (2) J_train(theta)與J_test(theta)的大小很相近

也因此J_test(theta)的值也很低，代表著我們的預測誤差極小。

Ans：