Udemy 課程筆記:Decision Trees, Random Forests, AdaBoost & XGBoost in Python |以 Python 建分類樹
Published in
3 min readDec 27, 2019
在進入本文前,如果想看更完整內容可以點此到本系列目錄。
導入資料
處理遺失值
從下圖可以看到總共有 506 筆資料,唯獨 Time_taken 這項變數只有 494 筆,也就是說 Time_taken 這項變數有遺失值
在本例中,是用平均值填補遺失值。根據變數特性,也可以選擇最大值、最小值、零等等去填補遺失值。
建立 dummy variable
當變數為類別型態時,就需要透過 dummy variable 轉換成數值變數,才能進一步計算。設定 drop_first = True
代表轉換過後,不保留原本的變數。
切分資料集
目標變數是 Start_Tech_Oscar,其餘變數都是自變數
接著用 train_test_split()
分割出 80% 建模資料集與 20% 測試資料集
訓練回歸樹模型
更詳細的變數設定請見此
預測資料
評估模型的表現
使用正確率及 混淆矩阵 (confusion matrix) 評估模型的表現
視覺化圖形