分類適用屬性的選定(Information Gain)

2 min readAug 22, 2019

當你在市場買菜時，隨口問攤販：「老闆，請問這橘子是酸的還是甜的？」他們馬上針對橘子的外表、重量侃侃而談，教你如何挑選之外可能還順便還塞幾個試吃的水果到你手上。但，我們不是經驗值滿點的老闆，要是影響口味的因素太多可能也沒輒😆

好的，前言結束。這次主要記錄如何透過Entropy從資料集中挑選適當的屬性(attribute)作為資料分類的依據。Entropy指的是資料均勻度，當子集中涵蓋了太多不一致的分類結果時，代表資料均勻度高，即Entropy值大。

以下圖為例，右方子集相較於左方子集而言更均勻地混合，採用的分類屬性並不易於區分資料，而右方Entropy值也會大於左方Entropy值。

Entropy定義如下：

其中C為類別總數，Ｐ表示分類至該類別的機率。

透過計算子集的Entropy值，我們可以進一步衡量分類屬性的資料增益(Information Gain, IG)程度，也就是從母集合切割成各個子集合時，藉此評估分類屬性對資料均勻性的提升/減損程度。

計算各個屬性的IG值後，最後當然是選定一個資料增益程度最大的屬性作為分類規則。將資料集依序按照選定的分類規則拆解後，若以視覺化呈現便可以發現一個樹狀結構，即分類樹。

Written by 月白 renimatsa