OCR — Da Introdução à Aplicação

Lucas de Brito Silva

Follow

Published in

Data Hackers

4 min readJul 14, 2020

--

OCR é um acrônimo que representa Optical Character Recognition (Reconhecimento ótico de caracteres) e a sua principal motivação foi de reconhecer caracteres a partir de imagens, principalmente, e de mapas de bits, dessa forma, facilitando a manipulação desses caracteres identificados.

Como os estudos dessa tecnologia são uma realidade desde 1950, hoje temos bastante ferramenta que são consolidadas no mercado e gratuitas, inclusive, das quais posso citar:

GORC (http://jocr.sourceforge.net/)

2. Online OCR (https://www.onlineocr.net/)

3. Tesseract OCR (https://github.com/tesseract-ocr/)

Todavia, quando se trata de fama na comunidade de desenvolvedores, vemos que o Tesseract possui grande destaque, incluindo até mesmo um repositório no GitHub que da suporte a quem deseja utiliza-lo e possui uma documentação completa.

https://github.com/tesseract-ocr/

Dos pontos de destaque, vale citar que o tesseract é desenvolvido em C, porém o mesmo possui um Wrapper em Python o qual é denominado Pytesseract, sendo disponibilizado no PIP (https://pypi.org/project/pytesseract/) e em Anaconda (https://anaconda.org/conda-forge/tesseract), para quem tem mais familiaridade com Python (que é o meu caso).

Instalação e teste

A instalação de tesseract no sistema Linux pode ser feita em poucos comandos:

$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev

E o mesmo ocorre com macOS. Há uma variação entre MacPorts e Homebrew, mas nesse post citarei apenas a versão de Homebrew:

$ brew install tesseract

Após realizar a instalação do tesseract, é possível realizar OCR em apenas um comando, assim, já extraindo algumas palavras da imagem.

OBS.: A linguagem padrão é inglês, dependendo do texto, não será possível capturar a palavra/frase.
Caso pretenda trabalhar com outra linguagem, é necessário fazer algumas instalações adicionais (https://github.com/tesseract-ocr/tesseract/wiki#other-languages).

Implementação com Pytesseract

A implementação com Pytesseract é bem simples também em que com poucas linhas de código pode-se obter resultados satisfatórios, como o código abaixo:

No resultado é possível observar que alguns traços são detectados sem uma existência real. Dessa forma, utilizaremos o seguinte código que conta com o apoio da biblioteca OpenCV para realizar algumas tratativas na imagem.

Os resultados também apresentaram algumas falhas e isso é comum em OCR, a maior diferença, na verdade, foi no tempo de execução, em que, provavelmente, pela imagem ter um tratamento prévio, isso promove agilidade no processamento.

Curiosidade crucial

Na documentação do tesseract um ponto que merece muito destaque, quando tratamos de desenvolvimento com uso dessa biblioteca é o tópico de melhoria da qualidade de saída, ou seja, é um tópico que nos auxilia na melhoria do resultado, dessa forma temos advindos mais concisos e mais assertividade.

Dentre os tópicos citados nessa documentação, encontramos dicas quanto:

Redimensionamento
Binarização
Remoção de Ruído
Dilatação / Erosão
Rotação / Deskewing
Bordas
Transparência / Canal Alfa
Ferramentas / Bibliotecas

O que pode ser estudado mais detalhadamente em:

tesseract-ocr/tessdoc

There are a variety of reasons you might not get good quality output from Tesseract. It's important to note that…

github.com

Recomendações e Referências

As recomendações são artigos, posts e repositórios que usei de referência para aprendizado, o qual foi base para escrever esse artigo:

“Lendo imagens”! — Uma abordagem a OCR com Google tesseract e Python!

“O homem chega a sua maturidade quando encara a vida com a mesma seriedade que uma criança encara uma brincadeira.”…

blog.codeexpertslearning.com.br

tesseract-ocr

Dismiss GitHub is home to over 50 million developers working together. Join them to grow your own development teams…

github.com

tesseract-ocr

Dismiss GitHub is home to over 50 million developers working together. Join them to grow your own development teams…

github.com

OCR — Da Introdução à Aplicação

Instalação e teste

Implementação com Pytesseract

Curiosidade crucial

tesseract-ocr/tessdoc

There are a variety of reasons you might not get good quality output from Tesseract. It's important to note that…

Recomendações e Referências

“Lendo imagens”! — Uma abordagem a OCR com Google tesseract e Python!

“O homem chega a sua maturidade quando encara a vida com a mesma seriedade que uma criança encara uma brincadeira.”…

tesseract-ocr

Dismiss GitHub is home to over 50 million developers working together. Join them to grow your own development teams…

tesseract-ocr

Dismiss GitHub is home to over 50 million developers working together. Join them to grow your own development teams…

Written by Lucas de Brito Silva