Tagged in

Ocr

Data Scientists Playground

Share Data science, machine learning and deep learning

Followers

269

More, on Medium

這篇會介紹用的 nn model, 主要思考方向是用 CNN 先處理過圖片, 再用CNN得到的feature 做後續處理, 在這部分我用了三個不同的方法, 包含 Lstm 和Transformer, 最後使用 CTC 的方始訓練, 如果對 CTC 不了解的可以先去參考

這裏記錄下驗證碼辨識的實作過程, 這裏先簡單敘述一下目標任務

此任務會輸入一張固定大小的彩色圖片, 圖片大小為(120,60), 裡面有1~3碼, 每碼都是小寫英文字, 顏色和旋轉不固定, 並且有雜點, 以下為範例圖片

可以看到就算同樣都是u 也有不同的顏色和旋轉, 字母位置也不是那麼固定