玉山金控CRV 部門實習week 8

玉山倒數第二週,開始準備最後的期末報告,題目是「票據影像辨識」,延伸自上上週的支票影像辨識專案,上次的專案最後使用了fast-RCNN,可以成功在支票上辨識出一些中文數字,但辨識率並不高,且訓練時間亦太長。參考學長姊給的意見,這次的專案目標是根據準確率,即完全可辨識的支票中,數字金額完全預測正確的比率,來提供一個方法論並說明實際的績效如何。與上次的專案不同,部門開了一台Amazon Deep Learning AMI(Amazon Machine Image) 伺服器讓我們全權使用,內建多種不同深度學習框架可供使用,因此就沒有理由說做不出來了!

傳統 CNN 模型是應用卷積層、池化層讓機器得以學習圖像的特徵:

而後單純的 CNN 模型無法滿足一張圖片中辨識多個目標的需求,因此有了 RCNN 系列的物件偵測演算法:

鑑於上次使用的fast-RCNN 套件訓練時間過長,且只支援Python2,所以這次選用了object detection 演算法中較新的Mask-RCNN,與fast-RCNN 不同的地方在於,Mask-RCNN 像是在fast-RCNN 的基礎上,再疊加一層Mask(遮罩),並且透過多個Mask 提出可能的物件位置(proposal),藉此增加準確率。程式碼部分則是直接參考在github 有很多星星保證的 matterport 這家公司實作的開源套件

透過實習生團隊努力一星期的人工標籤資料(2682張的訓練資料,共標註 23,246 個標籤),再以468 張的測試資料,進行模型準確率的驗證,最後準確率有超過 80%,超越正職行員的準確率要求(70%),與 MA 的準確率要求(80 %),但距離實際落地應用還有一段距離,未來可能需要更多訓練資料,才能讓準確率提高到 90% 以上。