【機器學習知識點】非監督式學習的應用情境與演算法分類
本文條列非監督式學習的實務應用舉例與相關算法,並描述其概念、圖示及延伸閱讀補充
Published in
Aug 2, 2021
本期帶大家盤點 非監督式學習 的應用情境與算法,將網路上散佈的知識集中在這邊。
開始前……
如果你喜歡這篇文章的選題和動機,請幫我拍手👏 +5 下,讓我瞭解這是不是讀者妳/你所喜歡的方向喔
(1) 分群
聚合式階層分群法(Agglomerative Hierarchical Clustering)
- 將每個樣本視為一個群聚,從樹狀結構底部不斷融合相近的樣本;假如生成的群數多於我們預期的群數,則反覆重複聚合最近距離的兩群的動作,直到群數降到條件範圍內。
- 完成的分群會以樹狀結構呈現,稱作 dendrogram。
- 若群內有多個樣本,該如何定義兩群間的距離?
在階層式分群中常見的距離定義方式有:
- Single Linkage:群與群的距離為不同群中最接近兩點間的距離,容易產生大者恆大的分群結果。
- Average Linkage:群與群的距離為不同群中各點與各點間距離總和平均,相比 Single Linkage 則較容易產生齊頭並進、各群規模相近的分群結果。
- Complete Linkage:群與群的距離為不同群中最遠兩點間的距離
- Ward’s Method:將兩群合併後,各點到合併後的群中心的距離平方和
分割式分群(Partitional Clustering):以 K-Means 演算法 為例
- 將 n 個點切分到 k 個群中,不斷重複調整群心、重新分群,最後達到每個點都隸屬於與其群心最近的聚類(群)中。
基於機率分佈的分群算法:以 高斯混合模型 為例
- 使用多個高斯機率密度函數來更精確地量化特徵的分佈,也就是將特徵分解為多個高斯機率密度函數的統計模型。
(2) 關聯規則
Apriori 演算法
- 一種逐層搜索的迭代方法。先找出出現頻次為 1 的項目集合,存為 L1;再用 L1 找出現頻次為 2 的項目集合 L2,L2 再用來找 L3,依此類推,直到不能找到更多頻次共同出現的項目集合。
(3) 異常檢測
LOF(Local Outlier Factor)
- 如果樣本點 p 的 LOF 得分接近 1,則表示 p 的局部密度與相鄰點差不多
如果 p 的 LOF 得分小於 1,則表示 p 落在一個相對密集的區域,最不像是異常點
如果 p 的 LOF 得分遠大於 1,則表示 p 跟其他樣本點相對疏遠,很有可能是異常點
(4) 降維
主成分分析(Principle Component Analysis, PCA)
- 對一系列可能相關的特徵進行線性轉換,將他們投影成另一系列「線性不相關」的特徵值,這些不相關特徵稱為「主成分」。
t-隨機鄰近嵌入法(t-Distributed Stochastic Neighbor Embedding, t-SNE)
- 使用機率分佈方法定義高維到低維的相似度轉換,優點是在保持局部結構的能力比 PCA 更佳,因此常被用於學術論文和競賽中的資料視覺化。
(5) 結構化資料分析
隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)
- 事先定義好有限的主題,並透過觀察文件與朋友用詞來計算出主題之間的關聯,以及各個文件的主題分佈,如此一來,只要文件夠多,就可以有效的快速理解不同文件的主題分佈
以上是非監督式學習的應用情境與算法整理,希望對你有幫助!
.如果你喜歡這篇文章的選題和動機,請幫我拍手👏 +5 下,讓我瞭解這是不是讀者妳/你所喜歡的方向
.如果這篇文章的整理對你有幫助,請幫我拍手👏 +20 下,讓我瞭解內容對讀者妳/你的幫助程度
.如果還希望有類似的知識點整理,請幫我拍手👏 +50 下,讓類似的內容可以繼續出現!
資料來源: