Tesseract-ocr for Thai Language
Published in
1 min readFeb 23, 2018
Thai Text Image
Thai Text
[ปั้นบบุฒ่สุดปธะเสธีฐิเลิศคุณค่า
กฮ่าปรอีดาฟู0ส้ดว๋เดธับิฉาบ
ออน่ำกันทัฒนคุอิชากาธ
อย่าลี้าป๋ผถิาญฤๆเย่นยำบิทาไคธ
ไม่ทีอโทษโกรธเเซ่น๊ซัดอึดอัดด่า
หัด๏กัยเหมือนกิทำอัปั๊ณาสี้ย
ปฏิฌิปธะพฤดิกฏกําหนดไบิ
พูดจาไหัอัะ ๆ อ่า ๆ ปาฟั0[อยฯ
]
Install Tesseract
$ sudo apt-get install libpng-dev libjpeg-dev libtiff-dev zlib1g-dev
$ sudo apt-get install gcc g++
$ sudo apt-get install autoconf automake libtool checkinstall
Need image processing toolkit Leptonica to build Tesseract.
$ cd ~
$ wget http://www.leptonica.org/source/leptonica-1.73.tar.gz
$ tar -zxvf leptonica-1.73.tar.gz
$ cd leptonica-1.73
$ ./configure
$ make
$ sudo checkinstall
$ sudo ldconfig $ sudo apt-get install tesseract-ocr
tesseract usage
$ tesseract --help
List available languages for tesseract engine
$ sudo tesseract --list-langs List of available languages (3):
osd
eng
equ
Install Thai package
$ sudo apt-get install tesseract-ocr-tha $ sudo tesseract --list-langs List of available languages (4):
tha
osd
eng
equ
Using Python and Tesserect
$ sudo pip install pytesseract
Python program
from PIL import Image
import pytesseractimg_path = 'data-test-img/text-img.png'
txtImg = Image.open(img_path)
text = pytesseract.image_to_string(txtImg)print text