Auto ML金融業應用-提高既有AML Program的執行效率

解決金融業界的兩難 — 怎麼讓客戶有好的體驗、同時又能精準做好風險識別？

PGi 樺鼎商業資訊

Published in

PGi 樺鼎商業資訊

8 min readSep 20, 2018

上期推薦閱讀

【DataRobot活動回顧】07/25 金融場 Top 5 常見問題總整理！

【DataRobot初登場】ML訓練師的秘密武器！AutoML到底是什麼？

【回歸基本面】人工智慧AI 和機器學習ML 之間的關係

KYC、CDD、AML、洗錢防制、風險辨識、名單檢核、擴編法遵人力…應該是金融圈近幾年的熱門關鍵字，也是一旦輕忽則代價會很高的關鍵字。

從2012、2014、2016到今年幾個大型的歷史案例可以知道，不符合國際標準的代價通常是上百億、甚至千億的新台幣罰款或和解金，也極可能直接衝擊到一家金融機構的正常營運。

「 2016年兆豐銀行紐約分行因風險管理及防制洗錢制度未達監理機關標準，遭美國紐約州金融署(DFS)裁罰1.8億美元…2018年因沒有完全改善缺失，再罰2千9百萬美元」
「金管會公告，XX產險在辦理保險業務時沒有做好洗錢及資恐風險的評估，依保險法核處三項糾正。」
「據 XX銀行表示，為提升法遵及洗錢防制機制，已投入新臺幣逾10億元。」

大家都知道防洗錢很重要、做不好的代價很大，也願意投入上千萬資金建立所謂的AML洗錢防制系統、安排風控/法遵教育培訓、鼓勵員工報考國際反洗錢師證照(CAMS)、擴大招聘專業人才等實際行動，最終目的都是要能夠回答一個關鍵問題：「知不知道風險在哪」，也就是希望在不磨損客戶體驗的情況下，自家的「風險識別能力」越精準越好。

但問題來了！投入了那麼多，為什麼還是會有「改善不佳」或「沒有做好」的控訴發生？實際執行起來到底難在哪？哪些環節才是最關鍵的？

以銀行業最常見的業務情境來說，風險識別從客戶臨櫃開戶、申辦貸款、大量匯款就開始了，第一線人員需要從客戶端蒐集到各種資訊，根據客戶的回答決定哪些客戶需要進一步加強審查，如果前面的方向錯了，後面跟進的審查時間、人力也就浪費了。

一、實際執行KYC (Know your Customer)，難的是過濾問題的設計與即時調整：

在金管會只給大原則、大方向的情況下，各金融機構針對不同類型的客戶、產品、不同複雜度的業務情境，分別要問哪些對的問題？
怎麼證明或解釋這些問題面向是關鍵的？
這些問題要依據什麼持續做調整？多久調整一次？

從客戶體驗至上的角度來說，怎麼樣不讓客戶感到煩瑣的情況下，蒐集到最有關聯的指標資訊？

二、針對日常交易活動的監控，AML系統的異常情境參數設定該怎麼設才精準？怎樣才能降低系統誤預警的次數？

可以想像，金融機構每日營運活動交易量那麼龐大，是不可能完全透過人工來進行日常交易活動的監控，

即便導入AML系統，目前系統只能針對觸發設定好的疑似洗錢交易條件發出警示，後續依然需要大量人力去做審查。

所以，異常情境參數怎麼設是控制人力/時間成本的關鍵，攸關後續是否會浪費大量人力去審查其實不需要去查的案件。

讓ML機器學習，成為AML洗錢防制流程的一部分，精簡流程、省下一半以上的法遵人力

現在，各金融機構除了導入必要系統外，也開始找尋更有效率的技術去加強既有的AML系統。

例如今年6月的新聞：永豐銀與成大團隊合作，以機器學習(Machine Learning)技術，開發信用風險評估模型，並優先導入法人金融的中小企業，作為信用風險評級及預警使用，加強風險辨識、量化與管理產品業務風險。

**示意圖：ML機器學習在AML Transaction Monitoring(交易監控)執行流程可扮演的角色**

而DataRobot 的自動化機器學習平台 (Auto ML Platform)，不只能加速找出最適模型，更重要的是「能夠解釋為什麼」

訓練 Model是一件事，能夠 理解並解釋 訓練好的 Model又是另一回事。

到目前為止，大多數人對演算法最頭痛地方就是「Black Box」的特性，很難直觀的解釋為什麼是這樣那樣的結果，特別是深度學習的學習模型。

有能力解釋某個訓練好的 Model 是最適合用來做預測的，對有嚴謹內部稽核與外部法規的金融業又特別重要。

DataRobot Platform 有幾個地方能幫助你理解並向他人解釋

Model Blueprint 是DataRobot 的精華所在，因為每個blueprint都是DataRobot內全球頂尖的資料科學家(Kaggle-Top-Ranked)調教過的，透過 Model Blueprints 可以一目瞭然的知道：你的數據做了哪些預處理？做了哪些特徵工程？總共用了哪些演算法來模擬資料？

An example of a model blueprint generated automatically by DataRobot for training a Regularized Logistic Regression algorithm

2. 在每一個跑過的Model 底下，可展開細節，例如 Feature Fit chart 可以幫助你衡量每個欄位特徵的重要性(Feature importance)，以及每個欄位特徵在某個Model下的合適度是如何的。

也就是說，透過歷史交易資料與實際發生的結果紀錄Suspicious Activity Reports (SARs)，除了找出最適模型外，還可以進一步知道哪些客戶資訊才是最必要的，跟潛在的洗錢行為是最有關係的。

有了這個資訊，就可以反饋到KYC、CDD的流程設計上，調整KYC的問題設計、調整審查規則，剔除一些不重要的問題，取得客戶體驗跟精準風險識別之間的平衡。

**Feature Fit chart 可以幫助你衡量每個欄位特徵的重要性**，以及每個欄位特徵在某個Model下的合適度是如何的。

3. Partial dependence 會告訴你，當某個重要變量或是預測變量改變時，會如何影響Model預測的精準度 (程度方面)

也就是說，假設有5位客戶都符合的 Top 10 Feature importance，而 Partial dependence則可以作為進一步分類的參考，去區分哪些客戶需要進行高強度盡職調查(Enhanced Due Diligence，EDD)、哪些只需要做較低需求程度的客戶盡職調查(Simplified DD，SDD)即可，有效分配法遵人力的使用。