【機器學習知識點】非監督式學習的應用情境與演算法分類

本文條列非監督式學習的實務應用舉例與相關算法，並描述其概念、圖示及延伸閱讀補充

JiunYi Yang (JY)

Follow

Published in

資料探員 Data Agent

Aug 2, 2021

--

本期帶大家盤點非監督式學習的應用情境與算法，將網路上散佈的知識集中在這邊。

開始前……
如果你喜歡這篇文章的選題和動機，請幫我拍手👏 +5 下，讓我瞭解這是不是讀者妳/你所喜歡的方向喔

(1) 分群

聚合式階層分群法（Agglomerative Hierarchical Clustering）

將每個樣本視為一個群聚，從樹狀結構底部不斷融合相近的樣本；假如生成的群數多於我們預期的群數，則反覆重複聚合最近距離的兩群的動作，直到群數降到條件範圍內。
完成的分群會以樹狀結構呈現，稱作 dendrogram。
若群內有多個樣本，該如何定義兩群間的距離？
在階層式分群中常見的距離定義方式有：

Single Linkage：群與群的距離為不同群中最接近兩點間的距離，容易產生大者恆大的分群結果。
Average Linkage：群與群的距離為不同群中各點與各點間距離總和平均，相比 Single Linkage 則較容易產生齊頭並進、各群規模相近的分群結果。
Complete Linkage：群與群的距離為不同群中最遠兩點間的距離
Ward’s Method：將兩群合併後，各點到合併後的群中心的距離平方和

分割式分群（Partitional Clustering）：以 K-Means 演算法為例

將 n 個點切分到 k 個群中，不斷重複調整群心、重新分群，最後達到每個點都隸屬於與其群心最近的聚類（群）中。

K-Means 分群結果三維展示圖｜圖片來源：scikit-learn 官方文件

基於機率分佈的分群算法：以高斯混合模型為例

使用多個高斯機率密度函數來更精確地量化特徵的分佈，也就是將特徵分解為多個高斯機率密度函數的統計模型。

(2) 關聯規則

Apriori 演算法

一種逐層搜索的迭代方法。先找出出現頻次為 1 的項目集合，存為 L1；再用 L1 找出現頻次為 2 的項目集合 L2，L2 再用來找 L3，依此類推，直到不能找到更多頻次共同出現的項目集合。

(3) 異常檢測

LOF（Local Outlier Factor）

如果樣本點 p 的 LOF 得分接近 1，則表示 p 的局部密度與相鄰點差不多
如果 p 的 LOF 得分小於 1，則表示 p 落在一個相對密集的區域，最不像是異常點
如果 p 的 LOF 得分遠大於 1，則表示 p 跟其他樣本點相對疏遠，很有可能是異常點

(4) 降維

主成分分析（Principle Component Analysis, PCA）

對一系列可能相關的特徵進行線性轉換，將他們投影成另一系列「線性不相關」的特徵值，這些不相關特徵稱為「主成分」。

PCA 前2維主成份向量之樣本分佈圖｜圖片來源：researchgate.net

t-隨機鄰近嵌入法（t-Distributed Stochastic Neighbor Embedding, t-SNE）

使用機率分佈方法定義高維到低維的相似度轉換，優點是在保持局部結構的能力比 PCA 更佳，因此常被用於學術論文和競賽中的資料視覺化。

t-SNE 分群結果展示：以手寫數字影像辨識為例｜圖片來源：nlml.github.io

(5) 結構化資料分析

隱含狄利克雷分布（Latent Dirichlet Allocation, LDA）

事先定義好有限的主題，並透過觀察文件與朋友用詞來計算出主題之間的關聯，以及各個文件的主題分佈，如此一來，只要文件夠多，就可以有效的快速理解不同文件的主題分佈

Topic Modeling 概念圖解：LDA 是其中一種常用的非監督式機率模型｜圖片來源：dataencode.net

以上是非監督式學習的應用情境與算法整理，希望對你有幫助！

．如果你喜歡這篇文章的選題和動機，請幫我拍手👏 +5 下，讓我瞭解這是不是讀者妳/你所喜歡的方向
．如果這篇文章的整理對你有幫助，請幫我拍手👏 +20 下，讓我瞭解內容對讀者妳/你的幫助程度
．如果還希望有類似的知識點整理，請幫我拍手👏 +50 下，讓類似的內容可以繼續出現！

資料來源：

【機器學習知識點】非監督式學習的應用情境與演算法分類

本文條列非監督式學習的實務應用舉例與相關算法，並描述其概念、圖示及延伸閱讀補充

(1) 分群

聚合式階層分群法（Agglomerative Hierarchical Clustering）

分割式分群（Partitional Clustering）：以 K-Means 演算法 為例

基於機率分佈的分群算法：以 高斯混合模型 為例

(2) 關聯規則

Apriori 演算法

(3) 異常檢測

LOF（Local Outlier Factor）

(4) 降維

主成分分析（Principle Component Analysis, PCA）

t-隨機鄰近嵌入法（t-Distributed Stochastic Neighbor Embedding, t-SNE）

(5) 結構化資料分析

隱含狄利克雷分布（Latent Dirichlet Allocation, LDA）

Written by JiunYi Yang (JY)

分割式分群（Partitional Clustering）：以 K-Means 演算法為例

基於機率分佈的分群算法：以高斯混合模型為例