StatQuest 筆記分享 — 隨機森林的建立、使用、評估

隨機森林結合了決策樹的優點且大大的優化其預測(分類)的正確性。以下為StatQuest的講解筆記分享,此講解解說了如何建立隨機森林、使用隨機森林、評估隨機森林。

以下為原始資料用於解釋隨機森林建立的過程,四筆資料

  1. 建立與原始資料大小一致的自助抽樣資料(Bootstrapped Dataset)。其抽樣重點為允許重複選取同一的資料列(抽取後放回的概念)。以下圖示唯隨機抽選範例,可以發現第三筆資料沒被抽取,第四筆資料被抽取了兩次。沒被抽取的病患資料被稱為袋外資料(Out-Of-Bag Dataset)。

以此抽樣資料來建立決策樹,但每個節點僅隨機使用兩個變數(欄位)來建立。

2. 隨機選擇Good Blood Circulation和Blocked Arteries兩個變數當作做為根結點候選變數。

3. 假設Good Blood Circulation為最佳候選變數(能最好的最為根節點)。

4. 在剩下的變數中,持續隨機選擇兩個候選變數。持續此步驟建立決策樹。假設我們以此步驟建立了100棵決策樹成為隨機森林,建立好後,我們該如何使用此隨機森林呢?

5. 以以下病患資料為範例,將其輸入至隨機森林中的每棵決策樹中。如果結果Yes占多數,則總結此資料的結果為Yes,隨機森林判定此病患有心臟病。

建立好了隨機森林並且知道其用處後,我們要如何知道建立的隨機森林的好壞呢? 還記得前面所說的在建立隨機抽取資料所沒選取的袋外資料嗎? 以上述的範例,第三筆資料為袋外資料,我們可以讓此筆病患資料輸入所有沒使用此筆資料的決策樹。跟步驟5相同, 如果結果No佔多數,總結此資料的結果為No,隨機森林判定此病患沒有心臟病。以相同步驟對其他的袋外資料進行歸類。我們可以檢討隨機森林在對袋外資料歸類的正確性。

--

--