如何預測資料:尋找迴歸模型的係數
以最小化均方誤差為目標的正規方程與梯度遞減
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.
Tom Mitchel
歷經如何獲取資料、如何掌控資料與如何探索資料等一系列文章的洗禮,現在我們已經具備使用 Python 與 R 語言撰寫程式碼,完成資料科學專案中建立機器學習模型前置任務的能力,包含自動化擷取網頁資料、大範圍清理整併資料以及快速暸解資料特徵,許多頂尖的資料科學團隊會建立自己的 Data Pipeline 將前置任務標準以及規模化(像是 Airbnb 的 AirFlow。)該是時候利用資料訓練機器學習模型來協助團隊預測或挖掘隱含特徵的時機,其中利用模型作預測稱為監督式學習(Supervised Learning),而挖掘特徵則稱為非監督式學習(Unsupervised Learning。)
摘要
本文使用艾姆斯房價資料集中的觀測值與變數簡介關於迴歸模型、學習資料集、什麼是訓練、驗證及測試資料、單變數的迴歸模型、撰寫正規方程以及梯度遞減的程式尋找迴歸模型係數、利用曲面圖描繪成本函數在梯度遞減過程中的變化 、使用模組或套件尋找係數還有在散佈圖上繪製出迴歸模型。
關於迴歸模型
機器學習是透過輸入資料將預測或挖掘特徵能力內化於電腦程式之中的方法,模型涵蓋三個元素:資料(Experience)、任務(Task)與評估(Performance),以一個房價預測模型為例,它的三要素是:
- 資料(Experience):一定數量具備坪數、屋齡、類型與成交價等變數的觀測值
- 任務(Task):利用模型預測市場上尚未成交的房價
- 評估(Performance):模型預測的房價與未來實際成交房價的誤差大小
隨著資料增加,預測誤差應該要減少;而因為房價預測模型所輸出的是數值,屬於監督式學習中的一個分支:迴歸模型(Regression Model)。
學習資料集
眾多資料科學專欄中都諄諄告誡面試者不應該將學習資料集(Toy Datasets)的使用經驗寫入簡歷中,但這並不代表這些學習資料集是不好的教材,常見用來學習迴歸模型的資料集有波士頓房價(Boston, Massachusetts)與艾姆斯房價(Imes, Iowa)。本文我們會在 Python 與…