玉山金控CRV 部門實習week 4

David
爬格子的兔子
Published in
2 min readJul 30, 2018

結束機器學習專案後,接著進行的是信用卡簽帳分析專案。

過往信用卡處在選定合作店家時,通常都是以簽帳金額的多寡作為主要判指標,例如從全年玉山信用卡消費紀錄中挑選簽帳金額前五名的店家洽談相關合作,但這樣的做法有兩個問題:

  1. 簽帳金額高的店家通常亦是同業合作的首要目標,容易陷入紅海競爭。
  2. 容易錯過潛力店家,這些店家可能還在起步階段,規模並不大,卻可能在未來成長為主力店家。

因此,這次與信用卡單位合作,從2017 年玉山銀行所有簽帳明細中,隨機抽取5 萬名顧客的全年簽帳記錄,希望可以找出具發展前景的潛力特店,並在其成長階段就先行切入與其合作。

資料總筆數約為18 萬筆,在分析時遇到了以下的困難:

1. 消費分類不明:每筆消費都會根據店家的POS 機設定,有特定的消費分類,這時就會出現許多意義不明的分類,例如牛奶店中分類中居然有五金行,或是電商平台被歸類為資訊服務等。

2. 單一銀行一年期的簽帳資料容易受到季節性波動、促銷折扣影響,而產生偏差,簽帳資料不一定能反映實際銷售情況。

3. 如何從數據面定義「潛力」?可以用簽帳金額的多寡、簽帳金額的成長率來定義,但如果從業管單位的角度,更希望看到的是一套有邏輯的推演過程,因為單純看簽帳金額的多寡,其實卡處自己就可以統計了。

最後總結一下我們的分析過程:

  1. 目標是找出可以合作的潛力特店,所以先將資料中以聯名卡消費的資料去除。
  2. 針對消費類別、消費店家等欄位進行清理,將有Null 值的資料清除。
  3. 按照月份與消費類別做groupby,發現有些類別單月只有數筆資料,可能不足以支持是否真的在成長,所以將單月消費筆數少於37 筆的類別清除(50 百分位數)。
  4. 將剩下約100 個類別按照食、衣、住、行、育、樂分類,從各大類別中找出簽帳金額比例最高或是成長曲線較高的子類別。
  5. 從子類別中找出簽帳金額成長率最高的特店,並從google trends、新聞等外部輿情資料分析其成長原因。

--

--