分類適用屬性的選定(Information Gain)

月白 renimatsa
2 min readAug 22, 2019

當你在市場買菜時,隨口問攤販:「老闆,請問這橘子是酸的還是甜的?」他們馬上針對橘子的外表、重量侃侃而談,教你如何挑選之外可能還順便還塞幾個試吃的水果到你手上。但,我們不是經驗值滿點的老闆,要是影響口味的因素太多可能也沒輒😆

好的,前言結束。這次主要記錄如何透過Entropy從資料集中挑選適當的屬性(attribute)作為資料分類的依據。Entropy指的是資料均勻度,當子集中涵蓋了太多不一致的分類結果時,代表資料均勻度高,即Entropy值大。

以下圖為例,右方子集相較於左方子集而言更均勻地混合,採用的分類屬性並不易於區分資料,而右方Entropy值也會大於左方Entropy值。

Entropy定義如下:

其中C為類別總數,P表示分類至該類別的機率。

透過計算子集的Entropy值,我們可以進一步衡量分類屬性的資料增益(Information Gain, IG)程度,也就是從母集合切割成各個子集合時,藉此評估分類屬性對資料均勻性的提升/減損程度。

計算各個屬性的IG值後,最後當然是選定一個資料增益程度最大的屬性作為分類規則。將資料集依序按照選定的分類規則拆解後,若以視覺化呈現便可以發現一個樹狀結構,即分類樹。

--

--