ML入門（十八）K-Means

Chung-Yi

Published in

程式設計之旅

5 min readSep 29, 2019

什麼是非監督式學習

之前我們所介紹的幾種分類方法都監督式學習，而非監督式學習演算法只基於輸入資料找出模式，無法正確找出結果。K-Means就是透過這個概念將資料做分群，顧名思義就是將資料分成一群一群。常被用在客戶分群、特徵抽象化、非結構化資料分析…。

下面這張圖可以明顯看出左邊是監督式學習，右邊是非監督式學習。

如果還聽不懂沒關係，下面我會舉一個簡單的例子，這個例子是我看到某位大大他在介紹K-Means時所舉的例子（機器學習: 集群分析 K-means Clustering）：

K-means Clustering這個方法概念很簡單，一個概念「物以類聚」。男生就是男生，女生就是女生，男生會自己聚成一群，女生也會自己聚成一群。

但在這群男生自己不會動成一群，女生也不會動成一群，在機器學習內，我們有的就是一組不會動的身高和體重的資料。那是什麼會動，讓男生女生可以區隔開的是什麼? 回頭看看演算法的名字，k-means，這邊的k是你想分成幾群，means就是每一群群心（ cluster centroid），所以會動的東西就是群心。這邊很懸，什麼是會動的群心??????

如果用實際的例子說，大家到新學校上學的時候有沒有一種感覺，第一天到的時候基本上大家都不熟，一個兩個人是一群，後來慢慢會有一群人聚在一起，沒幾天就分成兩群、三群，慢慢的到上學後一個月，基本上班上的小團體都分好了，每個團體都有一個key-man，你可以把這個key-man當作是群心，基本上大家都是因為有這個key-man聚在一起的(如果變節又是另一件事情)。那這個key-man在開學到小團體分好之前，基本上有可能會一直換來換去的，甚至多出一個key-man或是少一個key-man(演算法:ISODATA)，或是這個團體的key-man會因為別人的強勢而換掉，這就是會動=換掉的群心。