Udemy 課程筆記：Decision Trees, Random Forests, AdaBoost & XGBoost in Python ｜以 Python 建回歸樹

Published in

Programming with Data

3 min readDec 27, 2019

--

在進入本文前，如果想看更完整內容可以點此到本系列目錄。

導入資料

處理遺失值

從下圖可以看到總共有 506 筆資料，唯獨 Time_taken 這項變數只有 494 筆，也就是說 Time_taken 這項變數有遺失值

在本例中，是用平均值填補遺失值。根據變數特性，也可以選擇最大值、最小值、零等等去填補遺失值。

建立 dummy variable

當變數為類別型態時，就需要透過 dummy variable 轉換成數值變數，才能進一步計算。設定 drop_first = True 代表轉換過後，不保留原本的變數。

切分資料集

目標變數是 Collection，其餘變數都是自變數

接著用 train_test_split() 分割出建模資料集與測試資料集

訓練回歸樹模型

更詳細的變數設定請見此

預測資料

評估模型的表現

使用 MSE 及決定係數 (coefficient of determination) 評估模型的表現

視覺化圖形

停止的標準(stopping criteria)

在內部節點中，最少要有幾個觀測值

在葉節點中，最少要有幾個觀測值

最大可以多深

柯頌竹

Written by 柯頌竹

Editor for

Programming with Data

熱愛自由行、參觀各種形式的展覽，踏上過20個國家的領土。歡迎詢問各種在歐洲自由行的問題。偶爾分享一下資料分析的讀書筆記。

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams