【機器學習知識點】非監督式學習的應用情境與演算法分類

本文條列非監督式學習的實務應用舉例與相關算法,並描述其概念、圖示及延伸閱讀補充

--

本期帶大家盤點 非監督式學習 的應用情境與算法,將網路上散佈的知識集中在這邊。

開始前……
如果你喜歡這篇文章的選題和動機,請幫我拍手👏 +5 下,讓我瞭解這是不是讀者妳/你所喜歡的方向喔

(1) 分群

聚合式階層分群法(Agglomerative Hierarchical Clustering)

  1. 將每個樣本視為一個群聚,從樹狀結構底部不斷融合相近的樣本;假如生成的群數多於我們預期的群數,則反覆重複聚合最近距離的兩群的動作,直到群數降到條件範圍內。
  2. 完成的分群會以樹狀結構呈現,稱作 dendrogram。
  3. 若群內有多個樣本,該如何定義兩群間的距離?
    在階層式分群中常見的距離定義方式有:
  • Single Linkage:群與群的距離為不同群中最接近兩點間的距離,容易產生大者恆大的分群結果。
  • Average Linkage:群與群的距離為不同群中各點與各點間距離總和平均,相比 Single Linkage 則較容易產生齊頭並進、各群規模相近的分群結果。
  • Complete Linkage:群與群的距離為不同群中最遠兩點間的距離
  • Ward’s Method:將兩群合併後,各點到合併後的群中心的距離平方和
聚合式階層分群法 dendrogram 示意圖|圖片來源:datanovia

分割式分群(Partitional Clustering):以 K-Means 演算法 為例

  • n 個點切分到 k 個群中,不斷重複調整群心、重新分群,最後達到每個點都隸屬於與其群心最近的聚類(群)中。
K-Means 分群結果三維展示圖|圖片來源:scikit-learn 官方文件

基於機率分佈的分群算法:以 高斯混合模型 為例

  • 使用多個高斯機率密度函數來更精確地量化特徵的分佈,也就是將特徵分解為多個高斯機率密度函數的統計模型。
高斯分佈以機率為基礎分群示意圖|圖片來源:CSDN Blog

(2) 關聯規則

Apriori 演算法

  • 一種逐層搜索的迭代方法。先找出出現頻次為 1 的項目集合,存為 L1;再用 L1 找出現頻次為 2 的項目集合 L2,L2 再用來找 L3,依此類推,直到不能找到更多頻次共同出現的項目集合。
Apriori 演算法過程示意圖|圖片來源:matters 社群專欄

(3) 異常檢測

LOF(Local Outlier Factor)

  • 如果樣本點 pLOF 得分接近 1,則表示 p 的局部密度與相鄰點差不多
    如果 pLOF 得分小於 1,則表示 p 落在一個相對密集的區域,最不像是異常點
    如果 pLOF 得分遠大於 1,則表示 p 跟其他樣本點相對疏遠,很有可能是異常點
LOF 得分高低示意圖|圖片來源:scikit-learn 官方文件

(4) 降維

主成分分析(Principle Component Analysis, PCA)

  • 對一系列可能相關的特徵進行線性轉換,將他們投影成另一系列「線性不相關」的特徵值,這些不相關特徵稱為「主成分」。
PCA 前2維主成份向量之樣本分佈圖|圖片來源:researchgate.net

t-隨機鄰近嵌入法(t-Distributed Stochastic Neighbor Embedding, t-SNE)

  • 使用機率分佈方法定義高維到低維的相似度轉換,優點是在保持局部結構的能力比 PCA 更佳,因此常被用於學術論文和競賽中的資料視覺化。
t-SNE 分群結果展示:以手寫數字影像辨識為例|圖片來源:nlml.github.io

(5) 結構化資料分析

隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)

  • 事先定義好有限的主題,並透過觀察文件與朋友用詞來計算出主題之間的關聯,以及各個文件的主題分佈,如此一來,只要文件夠多,就可以有效的快速理解不同文件的主題分佈
Topic Modeling 概念圖解:LDA 是其中一種常用的非監督式機率模型|圖片來源:dataencode.net

以上是非監督式學習的應用情境與算法整理,希望對你有幫助!

.如果你喜歡這篇文章的選題和動機,請幫我拍手👏 +5 下,讓我瞭解這是不是讀者妳/你所喜歡的方向
.如果這篇文章的整理對你有幫助,請幫我拍手👏 +20 下,讓我瞭解內容對讀者妳/你的幫助程度
.如果還希望有類似的知識點整理,請幫我拍手👏 +50 下,讓類似的內容可以繼續出現!

資料來源:

--

--

JiunYi Yang (JY)
資料探員 Data Agent

Master @ NCCU MIS.Founder @ jiunyiyang.me .Data Scientist & Digital Ads Optimizer.Feel free to PM me at: m.me/Abao.JiunYiYang or linkedin.com/in/jiunyiyang