StatQuest 筆記分享 — 隨機森林的建立、使用、評估

DigNo Ape 數遊原人

Published in

IMU Framework Design

Nov 27, 2022

--

隨機森林結合了決策樹的優點且大大的優化其預測(分類)的正確性。以下為StatQuest的講解筆記分享，此講解解說了如何建立隨機森林、使用隨機森林、評估隨機森林。

以下為原始資料用於解釋隨機森林建立的過程，四筆資料

建立與原始資料大小一致的自助抽樣資料(Bootstrapped Dataset)。其抽樣重點為允許重複選取同一的資料列(抽取後放回的概念)。以下圖示唯隨機抽選範例，可以發現第三筆資料沒被抽取，第四筆資料被抽取了兩次。沒被抽取的病患資料被稱為袋外資料(Out-Of-Bag Dataset)。

以此抽樣資料來建立決策樹，但每個節點僅隨機使用兩個變數(欄位)來建立。

2. 隨機選擇Good Blood Circulation和Blocked Arteries兩個變數當作做為根結點候選變數。

3. 假設Good Blood Circulation為最佳候選變數(能最好的最為根節點)。

4. 在剩下的變數中，持續隨機選擇兩個候選變數。持續此步驟建立決策樹。假設我們以此步驟建立了100棵決策樹成為隨機森林，建立好後，我們該如何使用此隨機森林呢?

5. 以以下病患資料為範例，將其輸入至隨機森林中的每棵決策樹中。如果結果Yes占多數，則總結此資料的結果為Yes，隨機森林判定此病患有心臟病。

建立好了隨機森林並且知道其用處後，我們要如何知道建立的隨機森林的好壞呢? 還記得前面所說的在建立隨機抽取資料所沒選取的袋外資料嗎? 以上述的範例，第三筆資料為袋外資料，我們可以讓此筆病患資料輸入所有沒使用此筆資料的決策樹。跟步驟5相同，如果結果No佔多數，總結此資料的結果為No，隨機森林判定此病患沒有心臟病。以相同步驟對其他的袋外資料進行歸類。我們可以檢討隨機森林在對袋外資料歸類的正確性。

Machine Learning

DigNo Ape 數遊原人

Written by DigNo Ape 數遊原人

Editor for

IMU Framework Design

https://www.threads.net/@dn.ape

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams