O Diário Oficial da União (DOU) amanheceu mais acessível e transparente! Agora gera matérias HTML oficiais

Peter Krauss
Nov 30, 2017 · 5 min read

A mãe de todas as informações oficiais agora, enfim, está parindo filhos gêmeos! Cada matéria é publicada simultaneamente em HTML e PDF.

Não é pouco, chega a ser a consumação de um milagre para a comunidade brasileira de dados a abertos. Durante praticamente duas décadas houve apenas a publicação do DOU em PDF, sem estrutura, orientado apenas à posição das letras no papel.
Clamávamos há uma década por respeito aos padrões abertos e à transparência de fato nos conteúdos oficiais: somente o conteúdo HTML é estruturado e 100% acessível.

A notícia é boa também para os estados e municípios. A maioria segue, nos seus diários oficiais, as boas práticas do DOU, de modo que eles agora terão um norte, passam a aceitar melhor o uso de formatos abertos.

Image for post
Image for post
Os processos de produção antes (só PDF) e a partir de hoje (PDF e HTML). Parte do conteúdo original se perdia. Agora, sem custo adicional — por ser um processo baseado em XML — , temos acesso completo ao conteúdo oficial por estar codificada em HTML, o padrão aberto e universal da internet.

O acesso individualizado às matérias, cada uma sozinha numa página-web devidamente identificada, é outra precondição de acessibilidade e transparência — para que padrões de interoperabilidade adotados pelo Brasil (ePING e LexML) sejam igualmente respeitados.

É o fim do custo de terceiros e do próprio governo “traduzindo” os horríveis PDFs para HTML, e o fim daquele “HTML não oficial”, que, apesar do custo e da seriedade no trabalho de tradução, trazia escrito em vermelho no final

Este texto não substitui o original publicado no Diário Oficial

De agora em diante não só vai substituir como vai ser ele mesmo, o documento HTML, o oficial. Tão oficial quanto seu “irmão gêmeo PDF”.

Para quem ainda acha que o PDF é “mais sério” ou “difícil de adulterar”, sugiro ler “Autenticidade e integridade de documentos públicos”.


Testar, auditar e comparar

Vejamos em mais detalhes o que mudou: confira pelos links e pelo código-fonte HTML (tecla ctrl+U do seu navegador), teste e audite os fatos. Quando se trata de acessibilidade e abertura, não confie em ninguém, nem neste artigo: confira. E seu ato de conferir, de testemunhar, também tem valor. Comente, faça seu post de comentário logo abaixo deste artigo, dizendo o que viu ou deixou de ver “ao vivo” nos links pelo seu navegador.

Não farei uma análise profunda, apenas darei exemplos de atos comuns do poder Executivo… Suponhamos a aprovação de transferências de fundo, aquelas leis que começam com “Fica aberto…” ou “Abre ao Orçamento da … da União”. Nossas planilhas sobre gastos do governo deveriam referenciar essas leis, assim como todo e qualquer contrato… Mas não o fazem por falta de interoperabilidade. Três exemplos: uma portaria, uma lei acessível no “esquema das antigas”, e uma lei semelhante no “esquema gêmeo”.

A ausência das portarias federais em HTML

Para portarias simplesmente não existiam transcrições HTML (!). Trata-se de um fato inédito termos acesso a documentos individualizados das portarias.

Basta um exemplo para ilustrar. Uma curtinha, Portaria (sem número) do Ministério de Estado das Relações Exteriores de 29 de novembro de 2017.

  • Publicação oficial HTML: apresentada só ela na página-web, isolada de outras matérias, toda em HTML estruturado — com parágrafos de fato, títulos com marcação diferenciada, isolamento dos metadados, etc.
    Ainda carece de identificador de matéria, e a autoridade (ministério) ainda precisaria amadurecer criando seu “contador de portarias”… Mas já foi um avanço imenso estar em HTML!
  • Publicação oficial PDF: encontre o Wally! Além de ficar perdida num meio orientado ao papel, tente fazer um simples copiar/colar dos dois parágrafos de conteúdo.

Como eram antes os raros HTMLs de leis

O custo de se transcrever PDF para HTML não é pequeno quando se trata de texto oficial, pois precisa ser fiel e completo. Requer um ser humano acompanhando o trabalho do computador, o pagamento de licenças de software que ajudam no trabalho, e o gasto de horas quando re-diagramando itens e tabelas que o software não consegue. Por isso pouco era transcrito para HTML: apenas normas hierarquia superior, tais como leis e decretos, ficando de fora as portarias e os contratos.

Novamente basta um exemplo curtinho para ilustrar. “Lei nº 13.405, de 26 de Dezembro de 2016”. Uma daquelas que “Abre ao Orçamento Fiscal da União” e trata de um “crédito suplementar no valor de R$ 151.975.117,00”.

  • Publicação cara não-oficial HTML: teve custo para ser transcrita, principalmente por conter tabela, o custo de transcrição é maior. Mais grave: apresenta aquele vermelhinho no final, “ Este texto não substitui o publicado no DOU de 27.12.2016”.
    Não tem valor de prova: milhões de brasileiros acessando e não tem valor algum como conteúdo auditado, nosso testemunho sobre esse documento não tem valor algum. Não é considerado oficial.
  • Publicação oficial PDF: só encontrei porque o LexML cita o link. Tente copiar/colar um simples parágrafo. Tente copiar/colar a tabela. Tente ler o conteúdo no seu celular. Tente ler no telão do seu computador ignorando a poluição visual da propaganda.
    … Tente, depois de baixar uma cópia exata para o gravar no seu computador, convencer alguém de que é mesmo uma cópia exata — no rodapé tem um aviso “Este documento pode ser verificado … pelo código 00012016122700001”, que não tem utilidade alguma para fins de prova e auditoria do conteúdo publicado. O DOU até hoje, mesmo com o altíssimo custo de PDF e hospedagem, ainda não oferece checksum.

Como está agora!

Sempre pode melhorar, mas o salto de hoje foi imenso, devemos aplaudir!

  • Publicação barata e oficial HTML: irmã gêmea do PDF a publicação não tem custo adicional para os cofres públicos. Texto, titulo, tabela, metadados, tudo estruturado. Tudo ótimo para ler na telinha, ler no telão, para copiar/colar, para humano gravar, para computador gravar e tratar como bem entender.
    Aquilo que vemos é aquilo que auditamos! Ainda falta um checksum nos metadados, mas já foi demonstrada também boa-vontade dos gestores, na Casa Civil da Presidência, de melhorar a publicação neste sentido.
  • Publicação oficial PDF: com link na própria página-web HTML, como se fosse um metadado. De resto o mesmo, está lá por tradição e nossa própria segurança como cidadãos. Infelizmente ainda teremos que preservar o horrível PDF nesta era ainda de transição do papel para o digital. Por isso um irmão gêmeo necessário.
    PS: auditar os custos de produção do PDF é essencial, é bem mais caro que HTML, e não faz sentido manter esse custo por muito mais tempo… Dentro de alguns anos o PDF poderá ser descartado, entrando em vigor o padrão universal aberto que o substituí, o EPUB com recurso moderno do CSS-break. Uma discussão mais profunda sobre o processo de modernização da indústria de publicações digitais pode ser acompanhado por aqui.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store