EasyOCR 步驟4: 訓練自訂資料集

Chang Yu Chen
Jan 21, 2024

--

若依照easy_ocr 步驟執行, 容易會遇到以下的問題:

1.EOFError: Ran out of input

2. ValueError: num_samples should be a positive integer value, but got num_samples=0

解決方法:

  1. 檢查步驟3 的output 資料夾是否有成功轉換, images 內的檔案跟gt.txt 是否是從步驟1新增的字體.ttf 所產生& gt.txt 是否可以跟images 內的檔案對應
  2. 官方教學的命令行指令: python train.py -- train_data lmdb/training--valid_data lmdb/validation -- select_data MJ-ST-- batch_ratio 0.9–0.1 -- Transformation None -- FeatureExtraction VGG-- SequenceModeling BiLSTM -- Prediction CTC--saved_model None-VGG-BiLSTM-CTC.pth-- num_iter 10 -- valInterval 10 後面請再額外加上: -- FT -- data_filtering_off --workers 0
  3. --workers 0 表示数据加载是在主进程中进行,在pytorch 中不要開多線程執行, 這樣就不會產生run out of input。確切的理由請參考

接下來應該就可以正常執行 training了~

--

--