你也有信用卡被盜刷的經驗嗎？只要用對科技，讓盜刷不再頻繁！

Sep 27, 2021

情境

無論是在網購或是實體商店，信用卡都成為人們便利消費的工具，但延伸而來的「盜刷」也成為銀行機構想要盡可能防範的問題。台灣在2020年的信用卡盜刷金額為11.85億元，相較於前幾年來說總體金額有下降，但網路盜刷的案件卻比2019年多了9000多件，來到了44.9萬件。

只要我們使用信用卡消費，就會有被盜刷的風險，盜刷的問題，不會因為人們的消費習慣從實體轉向數位而獲得改善。從前在實體消費會遇上側錄問題；而現在網路消費則會遇上資料外洩，只要有信用卡消費，就有被盜刷的風險。在近幾年的盜刷案件中，倒不是突然被刷了一筆巨額，而是幾百元、幾千元的小金額盜刷，在金額數量不大的情況下，民眾要防範盜刷也就增加了難度。

因此，銀行等相關機構，希望借用資料科學的能力，建造出可以監測盜刷交易的系統，加強使用者與商家之間的安全度。

資料簡介

資料集為歐洲信用卡持有者於2013年9月其中兩天的刷卡交易資料，共有284,807筆，其中492筆為被盜刷的交易資料。本次資料集每份刷卡交易資料皆提供28項特徵值，但礙於保密要求無法得知大部分特徵值代表之意義，僅以代號 V1, V2, … V28 之形式表示，唯一可得知之特徵值為 Time 及Amount，前者代表了交易之時間，後者代表交易金額。而資料集最末的 class=0 代表其為正常交易，class = 1代表其為盜刷交易。完整資料集如圖一所示。

資料視覺化

接下來，讓我們來看看這些資料的分布特性並加以視覺化。首先我們畫出正常交易 vs 盜刷交易總量的長條圖，如圖二所示

可以看到兩者差距懸殊，盜刷交易僅佔全部交易中 0.172% 。

再來，我們分別繪製發生正常交易及盜刷交易的交易時間分佈曲線圖，如圖三所示。

圖三.不同交易時間分佈曲線圖(Fraud = 盜刷/Not Fraud = 正常)

可以看到盜刷交易相較正常交易其發生時間更為平均，尤其是在深夜時間段也有一定的發生機率。

交易金額的部分，我們以盒鬚圖的形式呈現，如圖四所示。

假設我們再把盜刷交易金額及發生時間做視覺化處理，可得出如圖五所示。

初步了解資料集的分佈及特徵後，下一步我們將建立機器學習模型以讓我們能用資料科學的方式以不同的特徵值來預判交易是否有可能是屬於盜刷此一類型。

模型建立

此處我們選用 Random Forest Classifier (隨機森林)此一機器方法來建立模型。隨機森林是一個十分常見且好用的機器學方法。簡單來說，隨機森林會將我們的資料集隨機切分成為子集，並利用子集資料學習如何以特徵值判斷哪些是正常交易，哪些是盜刷交易後歸納出規則。在經過多次的學習後，隨機森林會在所有規則歸納出最能被廣泛應用的通則，並以其作為最終判斷準則。

此處我們將大部分的資料集用來訓練機器學習模型，剩餘的則用於稍後操是機器學習模型的預測準確度。此處我們將所有28項特徵值放入以建立隨機森林機器學習模型，並利用剩餘資料進行測試，最終結果如圖六所示。

我們此處以直觀的的預測錯誤數/全部預測數評估此模型的預測情形，可以看到此隨機森林模型的準確率高達 99.92%，高得不合理。此結果背後的原因其實是因為在原始資料當中盜刷交易佔整體交易中太少，因此在兩種資料不平衡的狀態下使用預測錯誤數/全部預測數此評估方式會使得得出之結論不恰當。通常來說，處理這種情況時我們會使用另一個評估方式，即 ROC-AUC 來驗證模型準確率。簡單來說，ROC-AUC會在去除資料不平衡的影響下建立一道門檻線，兩側分別代表不同判斷結果。在使用此法下，該模型準確率為 83.32% ，此數據即合理得多，也一並驗證了模型的實際應用性。

而測試完準確性後，我們也可以一併檢視機器學習模型判定原始資料集哪些特徵值是對於區分正常或盜刷交易比較重要的，如圖七所示。

管理意涵

此模型讓我們一窺資料科學可以被如何應用在實務金融領域上並產生實際效益。對於銀行來說，此模型可以幫助其預判哪些是可能有問題之交易請求以盡可能降低盜刷交易產生的機率，也進一步省下後續處理盜刷交易所需耗費的金錢、時間、心力; 對於客戶來說，此模型能夠盡可能幫助他們免遭受盜刷之害，也節省一旦成為受害者後要所需花費的心力、時間。

以上就是此篇文章的全部！如果你覺得寫得不錯，別忘記給我們拍拍手！

作者：林沛褕 (臺灣行銷研究特邀作者)、劉睿哲 (臺灣行銷研究特邀作者)

參考資料

https://www.kaggle.com/gpreda/credit-card-fraud-detection-predictive-models/notebook
https://www.kaggle.com/mlg-ulb/creditcardfraud