Como lidar com arquivos PDF no OmegaT

Sheila Gomes
OmegaT
Published in
3 min readJan 28, 2018

Toca aqui o tradutor que, ao receber um arquivo PDF para traduzir, já pensa nessas mesmas 3 letras, só que ao contrário? Com medo de que seja um PDF morto voltando como zumbi para nos atazanar? E o pior é que arquivos PDF foram criados para facilitar a vida das pessoas: eles contêm as informações necessárias para exibir uma cópia (quase) perfeita do conteúdo de arquivos de vários programas, sem exigir que a pessoa tenha esses programas para abrir os arquivos. Então se alguém tiver um documento feito no InDesign, por exemplo, com vários tipos de fontes, imagens e formatação diferentes, pode convertê-lo em um arquivo PDF e qualquer um, mesmo que não tenha o InDesign instalado em seu computador, pode abrir o arquivo e ver exatamente o mesmo conteúdo, com um leitor de PDF.

O problema é que, para oferecer essa facilidade, o padrão de arquivo PDF remove várias informações do arquivo original, entre elas, as de formatação. Por isso que, para tradutores que usam CAT tools, eles podem ser um perrengue. Quando vêm “vivos”, ainda há jeito, mas se vêm “mortos”, nem toda CAT consegue abri-los ou reproduzir algo próximo à formatação original .

Qual é a diferença entre PDF vivo e morto

O OmegaT trabalha apenas com PDFs vivos. Se o PDF for morto, o único jeito é usar uma ferramenta de OCR (reconhecimento ótico de caracteres) para extrair o texto, mas as melhores opções desse tipo de ferramenta costumam ser pagas. Até existem ferramentas on-line e gratuitas que podem ser usadas para extrair texto e formatação de PDFs de imagem. Mas os resultados geralmente não são muito bons e é bem comum os tradutores não poderem usar esse tipo de ferramenta on-line, por questões de confidencialidade.

Mas havia um pequeno problema com o OmegaT ao traduzir PDFs vivos: apesar do programa extrair o texto, como ele não tem uma ferramenta de formatação incorporada, o formato final é um texto simples, sem a formatação do texto original. Aí o tradutor tinha que reformatar o texto depois de traduzir.

Por sorte, há pouco tempo descobri um jeito mais direto de traduzir arquivos PDF vivos no OmegaT sem perder a formatação: usando o Draw, um dos programas gratuitos que vêm na suíte Libre Office. Basta abrir o arquivo PDF no Draw, salvar no formato ODG e traduzi-lo no OmegaT. Depois de traduzir e criar o documento traduzido, você abre o arquivo ODG de volta no Draw, revisa e corrige se alguma linha tiver ultrapassado o limite da página, por exemplo (algo comum em arquivos do Power Point também), e salva novamente como PDF.

É um processo bem simples e sem precisar recorrer a ferramentas pagas, que talvez possa até ser aproveitado em outras CATs que aceitem o formato ODG do Draw. Com certeza é uma mão na roda para quem recebe muitos documentos PDF para traduzir. É o seu caso? Se for, como você costumava fazer quando recebia um PDF para traduzir? Fique à vontade para comentar aqui abaixo ou deixar qualquer dúvida que tenha surgido na leitura do artigo.

--

--

Sheila Gomes
OmegaT
Editor for

Tradutora que constrói as pontes possíveis entre comunidades. Também localiza sites, software e jogos.