玉山金控CRV 部門實習week 8

Published in

爬格子的兔子

2 min readSep 2, 2018

玉山倒數第二週，開始準備最後的期末報告，題目是「票據影像辨識」，延伸自上上週的支票影像辨識專案，上次的專案最後使用了fast-RCNN，可以成功在支票上辨識出一些中文數字，但辨識率並不高，且訓練時間亦太長。參考學長姊給的意見，這次的專案目標是根據準確率，即完全可辨識的支票中，數字金額完全預測正確的比率，來提供一個方法論並說明實際的績效如何。與上次的專案不同，部門開了一台Amazon Deep Learning AMI(Amazon Machine Image) 伺服器讓我們全權使用，內建多種不同深度學習框架可供使用，因此就沒有理由說做不出來了！

傳統 CNN 模型是應用卷積層、池化層讓機器得以學習圖像的特徵：

而後單純的 CNN 模型無法滿足一張圖片中辨識多個目標的需求，因此有了 RCNN 系列的物件偵測演算法：

鑑於上次使用的fast-RCNN 套件訓練時間過長，且只支援Python2，所以這次選用了object detection 演算法中較新的Mask-RCNN，與fast-RCNN 不同的地方在於，Mask-RCNN 像是在fast-RCNN 的基礎上，再疊加一層Mask(遮罩)，並且透過多個Mask 提出可能的物件位置(proposal)，藉此增加準確率。程式碼部分則是直接參考在github 有很多星星保證的 matterport 這家公司實作的開源套件。

透過實習生團隊努力一星期的人工標籤資料(2682張的訓練資料，共標註 23,246 個標籤)，再以468 張的測試資料，進行模型準確率的驗證，最後準確率有超過 80%，超越正職行員的準確率要求(70%)，與 MA 的準確率要求(80 %)，但距離實際落地應用還有一段距離，未來可能需要更多訓練資料，才能讓準確率提高到 90% 以上。

玉山金控CRV 部門實習week 8

Written by David