台灣新機車掛牌市場分群實作

TingCC
TingCC
Jul 25, 2017 · 5 min read

這篇文章會說明如何透過K-mean 分群法來幫助行銷團隊瞭解台灣的機車市場的概況以及目前產品的競爭對手為何?

簡介:

有上過行銷課程的人想必都聽過 “STP ”這個行銷策略,其中 S (segmentation)表示大市場的現況,T (target)表示在大市場當中,找出要鎖定的目標小市場,讓團隊不要一開始就鎖定全部的用戶,而是要先鎖定部分的使用者來當利基點,P (position)則強調要針對那些使用者來設計自身產品,STP 主要是強調一個觀念,團隊應該要瞭解自己要面對的市場,在大市場當中找出自己要鎖定的族群,最後再針對這個族群設計出適合的產品,本篇的分群實作,就是這邊的S (segmentation),所謂的分群,就是在原始資料中,將資料切成特定的群數,讓整體資料的群內差異最小和群間差異最大的過程。

掛牌市場資料蒐集:

最原始的資料是和監理站所購買的”台灣新機車掛牌資料”,既然資料來源是監理站,表示這份資料包含了台灣新機車的每一筆掛牌資料,和許多市場研究是透過抽樣的方式來補抓市場的大小,這份資料代表實際的市場規模。

原始的資料欄位包含掛牌人的姓名、年齡以及居住地(縣市行政區)在加上掛牌的車款,但對我們來說,只知道這四個變數是不夠的,除了這些人口統計相關的變數外,我們也好奇,他們的收入多少,職業是什麼、教育程度為何、騎車相關的行為(每週騎多少次機車、每次騎多遠etc),他們平常喜歡做什麼,關心什麼事之類,有這些更細節的資料才能幫助行銷團隊瞭解行銷活動要怎麼辦、溝通的方式、在廣告聯播網上要如何設定受眾等等。

為了要增加資料的豐富程度,我參考了陳昇瑋老師的網路購書大數據– 給出版者的洞察分析中關於擴展資料的作法,透過年齡級距、性別及居住地這三個特徵來擴充維度,舉例來說:我們知道台北市20-25歲的男性碩士畢業的比例是 10% ,我們就將掛牌資料中,台中北20–25歲的男性掛牌資料其碩士畢業的比例設為 10% ,再來就是努力的去尋找各種包含三個維度的資料了,透過機車的公開規格(品牌、車身長度、顏色、油耗etc)、政府的公開資料以及東方線上的資料庫,我們終於把本來單純的四個維度擴展成許多面相的資料了。

掛牌資料的分群:

透過性別、年齡以及居住地拼玩公開資料後,我們現在的資料除了原始的四個欄位後,在消費者相關的欄位多了教育程度、收入水準及職業分布等,在機車相關的欄位多了品牌、車身長度、油耗及煞車等。

目前台灣一年大約掛了70–80萬量的機車,所以我們一年的資料量大約就是75萬筆。在這麼大量(? 對我來說啦XD)的資料下,我們可以透過 K-mean 這種簡單但是適合大量資料運算的方法來幫我們達成分群的目標。

在使用K-mean 的過程中,第一步是先給定一個初始群數k,來去計算分群的結果,透過不同群數的分群結果,透過定義所謂的分群結果好與壞,常見的計算方法可以是總組內差異,或是側影係數(Silhouette)等等,去比較這些參數的值,去找出最適的分群群數,因為K-mean 方法是找出該次計算的局部最小解,所以每次計算的值會不太樣,可以在相同群數下,多重複幾次計算去找出各群的平均組中點。

分群結果的解釋:

計算完分群結果後,我們的資料欄位多了一欄,也就是剛剛計算出來的標籤,透過標籤來將資料分開,這時候可以透過分類的方法來找出哪些變數是重要會影響分群的結果。

但在這次的分群過程,因為老闆催催催,所以沒有時間再去計算後續方法,僅逐一檢視每個群的特徵,包含這群人幾歲、住哪、性別是什麼、買什麼品牌的機車、買多少排氣量的機車、花多少錢買機車等等,去檢視哪些特徵讓這些資料被區分到不同群間。

因為一開始在拼資料的方法是透過性別、年齡與居住地去拼上符合這三個特徵的平均數,有了群標籤後,組中點就是去平均該標籤下的原始資料,所以組中點的值相對於真實值來說是平均又平均過的結果,所以如果僅比較每個組的組中點,去找出差異的話,會發現數值相差不大的現象,所以再將組中點除以原始資料(80萬筆)的特徵平均來計算該組的某個特徵相對於平均狀態來說,差異是多少(eg. 在原始資料當中,碩士畢業的比例為20%,第一群資料中,碩士畢業的比例為25%,兩者相除後,發現第一群碩士畢業的比例,相較於整體而言是1.25 倍,透過倍數間的比較,可以瞭解群和群之前的差異程度。

逐一檢視完每個特徵之後,就可以根據該群的特殊之處來形容使用者,這時候可以透過人物誌(Persona)來讓團隊更清楚的瞭解到不同群之間的差異,描繪完每個群的特徵後,也要讓公司裡較資深的前輩們來聽聽看這個分群的結論是否符合他們對於市場的認知,因為分群的結果好壞並沒有一個完美的答案,都還是要回到被分析的市場上,讓模型結論與市場概況雷同,分群的過程可以幫助我們在一般認知上,再額外加上許多細部資料。

結論:

這次分群的過程就是將原始資料透過三個維度的類別來拼上其他資料,以增加資料的豐富程度,再來透過 K-mean 分群法來將原始資料標上標籤,透過不同群特徵的比較來描繪出該群使用者,最後則是和團隊討論這些不同的使用者進而去檢視行銷活動的素材是否符合我們要鎖定的使用者。

Written by

TingCC

在遊戲業討生活,現居上海,隨意紀錄,歡迎指教。

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade