Udemy 課程筆記:Decision Trees, Random Forests, AdaBoost & XGBoost in Python |以 Python 建回歸樹

柯頌竹
Programming with Data
3 min readDec 27, 2019

在進入本文前,如果想看更完整內容可以點此到本系列目錄。

導入資料

處理遺失值

從下圖可以看到總共有 506 筆資料,唯獨 Time_taken 這項變數只有 494 筆,也就是說 Time_taken 這項變數有遺失值

在本例中,是用平均值填補遺失值。根據變數特性,也可以選擇最大值、最小值、零等等去填補遺失值。

建立 dummy variable

當變數為類別型態時,就需要透過 dummy variable 轉換成數值變數,才能進一步計算。設定 drop_first = True 代表轉換過後,不保留原本的變數。

切分資料集

目標變數是 Collection,其餘變數都是自變數

接著用 train_test_split() 分割出建模資料集與測試資料集

訓練回歸樹模型

更詳細的變數設定請見此

預測資料

評估模型的表現

使用 MSE 及決定係數 (coefficient of determination) 評估模型的表現

視覺化圖形

停止的標準(stopping criteria)

在內部節點中,最少要有幾個觀測值

在葉節點中,最少要有幾個觀測值

最大可以多深

--

--

柯頌竹
Programming with Data

熱愛自由行、參觀各種形式的展覽,踏上過20個國家的領土。歡迎詢問各種在歐洲自由行的問題。偶爾分享一下資料分析的讀書筆記。