主成分分析的概念及應用

行銷資料科學
Marketingdatascience
4 min readAug 23, 2019

在這個充滿大數據的時代裡,要蒐集到資料並非一件難事,但如何分析資料,並且找出這些資料背後的價值,是身為行銷人的我們必須學會的技能。在這項技能的背後,「統計」又扮演著非常重要的角色。也因此,我們將陸續介紹這些統計工具。而本篇文章,將介紹「主成分分析(Principal Component Analysis)」。

簡單來說,主成分分析能將眾多的變數(如5個變數),透過少數幾個變數來描述(如2個主成分)。例如:將學生的國語、英文、數學、社會、自然等5項成績(即5個變數),透過主成分分析後,得到:「綜合成績」與「文理科成績」兩項指標(如2個主成分)。接著,將以上兩項指標(主成分)當作X軸與Y軸,還可以畫出「主成份負荷圖」,來呈現各個學生在兩項指標(主成分)上的位置,如圖1所示。

圖1主成份負荷圖(繪圖者:鄭雅馨)

資料來源:栗原伸一, 丸山敦史,《統計學圖鑑:未來10年的最熱技能,保持領先,必學「極簡統計」!》,譯者:李貞慧,楓葉社文化,2019/05/02

主成份分析能夠將一組高度相關的變數,建構出背後的「指標(主成分)」。例如上述中的學生的國語、英文、數學、社會、自然成績,其指標為:「綜合成績」與「文理科成績」。或是將棒球隊的一壘安打、二壘安打、三壘安打、全壘打、打點、盜壘次數、四壞球等變數,進行主成份分析,可得到「上壘」、「打擊者」、「安打」等指標。

至於最多能萃取出多少主成分。理論上,K個變數,最多能萃取出K個主成份,但萃取出K的主成分的意義不大,因為這違反了一開始進行主成分分析的目的 — 即透過少數變數來描述眾多變數。此外,經過主成分分析所萃取出的主成份,重要性依序遞減,第一個所萃取出的主成份,解釋力最高。

那到底該萃取出多少主成分?統計上,我們可以利用陡坡圖,根據凱莎(kaiser)準則,保留特徵值大於1的主成份。另外,就是根據自己的需求來決定。至於需求數的多寡,在應用上,最常見的是萃取出1個主成分,以及2個主成分。

1.單一主成分

通常當我們只想找出一個「總指標」,就會只保留第一個主成份。例如:將應徵勞動工作者的身高、體重、胸圍、負重跑百米的時間等變數,透過主成分分析,萃取出背後的「體格」指標。這時,面試官就可透過「體格」這項指標,來進行排序,進而作為甄選的依據。或是將各種通路商的合作時間、公司成立時間、每年進貨數量、每次進貨數量、應收帳款時間、繳款時間…等變數,透過主成分分析,找出「優質廠商」指標,以作為給予各家廠商折扣多寡的依據。

2.雙主成分

在行銷上,「品牌定位」是個重要的議題。當我們萃取出雙主成分時,就可以根據這兩項主成分,發展出「定位圖」。舉例來說,透過儀器檢測市場上不同品牌啤酒的各種資料(如乙醛、乙酸乙酯等),透過主成份分析,找出兩項主成分(香醇與酒勁),協助企業發展品牌定位策略,或是做為改善產品的依據。

最後,主成分分析的目的,在透過少數變數來描述眾多變數,應用到資料科學領域,很適合用來「降維」(Dimension reduction)。在進行資料分析時,變數太多,會增加分析的複雜度,相對的,所投入的時間與資源也就更多。而每個變數,就是一個維度,主成分分析能用少數變數來描述眾多變數,亦即能降低變數的維度(如圖2所示)。舉一個在行銷資料科學上的實際應用 — 人臉辨識(雖然這項應用早在1991年就被提出),因為人臉辨識所牽涉到的變數很多,透過主成分分析可以萃取出少數的臉部特徵,來減少影像誤判的結果。

圖2 降維(繪圖者:陳靖宜)

資料來源:Matthias Scholz, Ph.D. thesis

透過主成份分析,我們能將眾多的變數,透過少數幾個變數來描述。進而協助我們分析資料,並且找出這些資料背後的價值。

作者:李宛樺(臺灣行銷研究特約編輯)、蘇宇暉(台科大管研所博士候選人)

繪圖者:陳靖宜(臺灣行銷研究特約設計師)、鄭雅馨(臺灣行銷研究特約設計師)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR