直覺易懂的分類 — — 決策樹(Decision Tree)

AI Justka
AI 講講話
Published in
Aug 29, 2022
Photo by Paul Kangas on Pexels

決策樹(Decision Tree)是一種監督式演算法(監督式學習可參考AI 如何變聰明?(二) — — 什麼是「機器學習」​​​​​​​),被廣泛用於機器學習、模型預測當中,由於決策樹直觀且易於掌握,就像一棵樹一樣,是一個強而有力的工具!

決策樹顧名思義,就像是一棵樹,由樹根、樹幹到樹葉般生成一個樹狀圖,而每個節點,都是一個特徵。會依據訓練出來的規則來對新樣本進行預測。例如我們要以 BMI 的標準來區分體重是否過輕、標準或是過重,如下圖:

透過決策樹,進行資料分類

若BMI < 18.5 ,決策樹則分枝把體重過輕的資料分出來,若為 18.5<=BMI<24,則把標準體重區分出來,最後再以 24<=BMI<27 區分為過重,27 <= BMI 即為肥胖。

如上述例子,我們可以透過決策樹把想要預測或歸納的資料,對每個節點設定分類的規則生成一個樹狀圖,來輔助我們做決策與分析。

AI 的歷史演進 — — 什麼是 AI?提及的西洋棋 AI,就可以利用決策樹來搜尋最適合的落子位置,但每步棋有幾百多步的可能性,因此除了決策樹之外,還必須搭配特殊的演算法才能避免過度龐大的模型。

和機器人下西洋棋

香蕉好不好?

舉個例子,在以下表格訓練集有八根香蕉,分別有各種特徵資訊,包含大小、重量、顏色、有無黑斑,而每根香蕉也貼上了是好或壞的標籤。

香蕉特徵表

如何建構一棵好的決策樹?

然而,在這麼多的特徵中,到底該如何建構出一棵好的決策樹呢?可以看看以下兩種以不同特徵作為節點分類出來的結果。

決策樹的建構

首先,藍框中是好的香蕉,灰框中是不好的香蕉。我們來看看左側和右側兩種分類方式哪一種比較好的呢?

在左圖可以看到是用香蕉的「大小」作為區分,然而用「大小」作區分可以看到大、中、小都包含著好或壞的香蕉。也就是說,用「大小」作為節點,並沒有讓我們得到好的分類結果。

而如右圖,用「顏色」作為節點,可以明顯看到黃色的香蕉是好的香蕉,黑色的香蕉是壞的香蕉,綠色的香蕉包含好及壞的香蕉,可以再繼續往下做延伸。

因此,從此結果可以看到以「顏色」作為節點是優於以「大小」作為節點的分類方式。

決策樹的概念相當容易,並且非常具有實用性。以上是我們用肉眼做出的分類,在實務上使用機器計算時,會依照需求搭配適合的演算法來增進效率,得出最佳答案。

--

--