資料降維 — LDA 線性區別分析

Katrina Yeh
數據領航員
Published in
Sep 24, 2022

當資料欄位數過多時會導致模型效果不佳、運算耗時等問題,因此需要將資料進行降維,找出有代表性的特徵或是透過將多個欄位組合成一個特徵欄位的方式來達成。

說到降維我們常聽見的都是 PCA 主成分分析,但是其實還有一個和 PCA 很像的降維方法 — LDA,在認識 LDA 之前大家可以先了解 PCA 的原理,這樣更能理解 LDA,接下來就和大家介紹 LDA 囉~~

🖋 目錄

Linear Discriminant Analysis ( LDA )

Linear Discriminant Analysis (線性區別分析)是一種監督式學習的降維演算法,除了用來降維,也可用於分類,在將資料從高維度映射到低維度的同時, LDA 會將「類別」納入考量當中,目的是為了讓降維後的資料點更容易被區分,希望類別和類別之間分得越開越好。

LDA 和 PCA 有關嗎?🧐

答案是「有的」,LDA 和 PCA 很像,PCA 為非監督式學習演算法,而 LDA 則是監督式學習演算法,兩者主要都是透過將多個特徵合成一個特徵的方式進行降維,PCA 目的在保留特徵的最大變異,LDA 則會加入「類別」的概念,專注於最大化不同類別之間的區隔,希望以「組內差異小,組間差異大」來達到最大變異。

LDA 如何達到降維?

這邊簡單舉例說明,下圖中有兩個類別不同的樣本點(黃色和綠色),以及X 軸特徵一和 Y 軸特徵二,我們的目標是要將兩個特徵融合成一個特徵來達到降維

在 PCA 中,因為 PCA 是屬於非監督式學習,所以兩個類別的資料點都會被視為同一種,而 PCA 為了讓所有樣本的特徵保持最大變異,因此會畫出下圖 PCA 的映射曲線(紅線),而圖中所有的資料點都會垂直映射(藍色虛線)到PCA 曲線上來達到降維,使這條線可以保留原本特徵的最大變異。

在 LDA 中, LDA 屬於監督式學習,因為會考量「類別」,這邊用黃色和綠色來代表不同類別的樣本點,而 LDA 希望類別和類別之間的差異越大,類別內的差異越小,基於這樣的情況畫出下圖 LDA 的映射曲線(藍色實線),而圖中所有的資料點都會垂直映射(藍色虛線)到 LDA 曲線上。

當所有點都映射到這條線上時,可以看到橘色類別點與綠色類別點的距離(紅線)拉開來了,同一類別的樣本點距離(紫圈)很緊密,而這就達到 LDA 降維的特色「組內差異小,組間差異大」。

當有兩種以上的特徵時,則會先找出類別間的中心點,接著以「組內差異小,組間差距大」去達到最大變異量。

詳細的 LDA 數學推導可以參考這篇

LDA 的優點 & 限制

相較於 PCA ,LDA 的降維效果更好,因為 LDA 會考量「類別」,不過 LDA最多只能降維到類別數-1的維度。無論是 PCA 還是 LDA 當資料特徵符合常態分配時效果會比較好。

最後幫大家回顧一下,LDA 和 PCA 都是資料降維的方法,PCA 的目的為保留資料特徵的最大變異,而 LDA 則是專注於最大化不同類別別之間的區隔,可以根據使用情境選擇適合的處理方式~~

參考資料:
[機器學習二部曲] Python實作 — 特徵工程: 如何在考量標籤下進行降維? LDA!

Linear discriminant analysis (LDA) — simply explained

StatQuest: Linear Discriminant Analysis (LDA) clearly explained.

教育部補助大專院校STEM領域及女性研發人才培育計畫目標為建構一個「以智慧物聯技術與實務應用為基礎的教育環境和實作場域」,並規劃出符合此STEM教育領域的創新特色課程,以畢業前進入企業實習的方式,讓學生了解相關產業界所面對的問題,再輔以業界實作場域的教育訓練活動,共同帶領學生發展出動手做、判斷與解決問題的相關技能;本計畫也規劃讓學生以專題實作的組隊方式,跟業界協力領導學生對外參與智慧物聯技術的應用競賽,不僅可以累積學生實務開發的能力,更能激發其潛能來幫助企業解決所面臨的難題。

Data Science Meetup 台灣資料科學社群的使命是「為資料科學人士與企業創建經濟機會」。我們相信大數據蘊藏著巨量的信息和價值,如何處理好大數據並發掘其潛藏的商業價值,就要靠資料科學有效的應用。21世紀是資料科學決勝時代,我們社群將為大家提供與資料科學相關的最新技術和資訊實戰攻略,並透過全球業界人士和學者幫助相關職業規劃與挑戰,社群活動包含

  • 台北實體版聚
  • 線上版聚
  • Mentorship Program

歡迎加入我們社團瞭解更多資訊:https://www.facebook.com/groups/datasciencemeetup/

--

--

Katrina Yeh
數據領航員

東吳大學資料科學系|Data Preprocessing & Machine Learning |樂於學習新事物,正在往資料科學的路上前進中~|📧Email:katrina001205@gmail.com