Udemy 課程筆記:Decision Trees, Random Forests, AdaBoost & XGBoost in Python |以 Python 建分類樹

柯頌竹
Programming with Data
3 min readDec 27, 2019

在進入本文前,如果想看更完整內容可以點此到本系列目錄。

導入資料

處理遺失值

從下圖可以看到總共有 506 筆資料,唯獨 Time_taken 這項變數只有 494 筆,也就是說 Time_taken 這項變數有遺失值

在本例中,是用平均值填補遺失值。根據變數特性,也可以選擇最大值、最小值、零等等去填補遺失值。

建立 dummy variable

當變數為類別型態時,就需要透過 dummy variable 轉換成數值變數,才能進一步計算。設定 drop_first = True 代表轉換過後,不保留原本的變數。

切分資料集

目標變數是 Start_Tech_Oscar,其餘變數都是自變數

接著用 train_test_split() 分割出 80% 建模資料集與 20% 測試資料集

訓練回歸樹模型

更詳細的變數設定請見此

預測資料

評估模型的表現

使用正確率及 混淆矩阵 (confusion matrix) 評估模型的表現

視覺化圖形

--

--

Programming with Data
Programming with Data

Published in Programming with Data

資料科學專欄,程式語言以Python為主,資料則是會整理機器學習的筆記。在找不到好看的封面圖時,偷渡無處可發旅遊照。

柯頌竹
柯頌竹

Written by 柯頌竹

熱愛自由行、參觀各種形式的展覽,踏上過20個國家的領土。歡迎詢問各種在歐洲自由行的問題。偶爾分享一下資料分析的讀書筆記。