直覺易懂的分類 — — 決策樹（Decision Tree）

Published in

AI 講講話

Aug 29, 2022

決策樹（Decision Tree）是一種監督式演算法（監督式學習可參考AI 如何變聰明？（二） — — 什麼是「機器學習」），被廣泛用於機器學習、模型預測當中，由於決策樹直觀且易於掌握，就像一棵樹一樣，是一個強而有力的工具！

決策樹顧名思義，就像是一棵樹，由樹根、樹幹到樹葉般生成一個樹狀圖，而每個節點，都是一個特徵。會依據訓練出來的規則來對新樣本進行預測。例如我們要以 BMI 的標準來區分體重是否過輕、標準或是過重，如下圖：

若BMI < 18.5 ，決策樹則分枝把體重過輕的資料分出來，若為 18.5<=BMI<24，則把標準體重區分出來，最後再以 24<=BMI<27 區分為過重，27 <= BMI 即為肥胖。

如上述例子，我們可以透過決策樹把想要預測或歸納的資料，對每個節點設定分類的規則生成一個樹狀圖，來輔助我們做決策與分析。

在AI 的歷史演進 — — 什麼是 AI？提及的西洋棋 AI，就可以利用決策樹來搜尋最適合的落子位置，但每步棋有幾百多步的可能性，因此除了決策樹之外，還必須搭配特殊的演算法才能避免過度龐大的模型。

香蕉好不好？

舉個例子，在以下表格訓練集有八根香蕉，分別有各種特徵資訊，包含大小、重量、顏色、有無黑斑，而每根香蕉也貼上了是好或壞的標籤。

然而，在這麼多的特徵中，到底該如何建構出一棵好的決策樹呢？可以看看以下兩種以不同特徵作為節點分類出來的結果。

首先，藍框中是好的香蕉，灰框中是不好的香蕉。我們來看看左側和右側兩種分類方式哪一種比較好的呢？

在左圖可以看到是用香蕉的「大小」作為區分，然而用「大小」作區分可以看到大、中、小都包含著好或壞的香蕉。也就是說，用「大小」作為節點，並沒有讓我們得到好的分類結果。

而如右圖，用「顏色」作為節點，可以明顯看到黃色的香蕉是好的香蕉，黑色的香蕉是壞的香蕉，綠色的香蕉包含好及壞的香蕉，可以再繼續往下做延伸。

因此，從此結果可以看到以「顏色」作為節點是優於以「大小」作為節點的分類方式。

決策樹的概念相當容易，並且非常具有實用性。以上是我們用肉眼做出的分類，在實務上使用機器計算時，會依照需求搭配適合的演算法來增進效率，得出最佳答案。