EasyOCR 步驟4: 訓練自訂資料集
Jan 21, 2024
若依照easy_ocr 步驟執行, 容易會遇到以下的問題:
1.EOFError: Ran out of input
2. ValueError: num_samples should be a positive integer value, but got num_samples=0
解決方法:
- 檢查步驟3 的output 資料夾是否有成功轉換, images 內的檔案跟gt.txt 是否是從步驟1新增的字體.ttf 所產生& gt.txt 是否可以跟images 內的檔案對應
- 官方教學的命令行指令: python train.py
--
train_data lmdb/training--
valid_data lmdb/validation--
select_data MJ-ST--
batch_ratio 0.9–0.1--
Transformation None--
FeatureExtraction VGG--
SequenceModeling BiLSTM--
Prediction CTC--
saved_model None-VGG-BiLSTM-CTC.pth--
num_iter 10--
valInterval 10 後面請再額外加上:--
FT--
data_filtering_off--
workers 0 --workers 0
表示数据加载是在主进程中进行,在pytorch 中不要開多線程執行, 這樣就不會產生run out of input。確切的理由請參考
接下來應該就可以正常執行 training了~