O Diário Oficial da União (DOU) amanheceu mais acessível e transparente! Agora gera matérias HTML oficiais

A mãe de todas as informações oficiais agora, enfim, está parindo filhos gêmeos! Cada matéria é publicada simultaneamente em HTML e PDF.

Não é pouco, chega a ser a consumação de um milagre para a comunidade brasileira de dados a abertos. Durante praticamente duas décadas houve apenas a publicação do DOU em PDF, sem estrutura, orientado apenas à posição das letras no papel.
Clamávamos há uma década por respeito aos padrões abertos e à transparência de fato nos conteúdos oficiais: somente o conteúdo HTML é estruturado e 100% acessível.

A notícia é boa também para os estados e municípios. A maioria segue, nos seus diários oficiais, as boas práticas do DOU, de modo que eles agora terão um norte, passam a aceitar melhor o uso de formatos abertos.

Os processos de produção antes (só PDF) e a partir de hoje (PDF e HTML). Parte do conteúdo original se perdia. Agora, sem custo adicional — por ser um processo baseado em XML — , temos acesso completo ao conteúdo oficial por estar codificada em HTML, o padrão aberto e universal da internet.

O acesso individualizado às matérias, cada uma sozinha numa página-web devidamente identificada, é outra precondição de acessibilidade e transparência — para que padrões de interoperabilidade adotados pelo Brasil (ePING e LexML) sejam igualmente respeitados.

É o fim do custo de terceiros e do próprio governo “traduzindo” os horríveis PDFs para HTML, e o fim daquele “HTML não oficial”, que, apesar do custo e da seriedade no trabalho de tradução, trazia escrito em vermelho no final

Este texto não substitui o original publicado no Diário Oficial

De agora em diante não só vai substituir como vai ser ele mesmo, o documento HTML, o oficial. Tão oficial quanto seu “irmão gêmeo PDF”.

Para quem ainda acha que o PDF é “mais sério” ou “difícil de adulterar”, sugiro ler “Autenticidade e integridade de documentos públicos”.


Testar, auditar e comparar

Vejamos em mais detalhes o que mudou: confira pelos links e pelo código-fonte HTML (tecla ctrl+U do seu navegador), teste e audite os fatos. Quando se trata de acessibilidade e abertura, não confie em ninguém, nem neste artigo: confira. E seu ato de conferir, de testemunhar, também tem valor. Comente, faça seu post de comentário logo abaixo deste artigo, dizendo o que viu ou deixou de ver “ao vivo” nos links pelo seu navegador.

Não farei uma análise profunda, apenas darei exemplos de atos comuns do poder Executivo… Suponhamos a aprovação de transferências de fundo, aquelas leis que começam com “Fica aberto…” ou “Abre ao Orçamento da … da União”. Nossas planilhas sobre gastos do governo deveriam referenciar essas leis, assim como todo e qualquer contrato… Mas não o fazem por falta de interoperabilidade. Três exemplos: uma portaria, uma lei acessível no “esquema das antigas”, e uma lei semelhante no “esquema gêmeo”.

A ausência das portarias federais em HTML

Para portarias simplesmente não existiam transcrições HTML (!). Trata-se de um fato inédito termos acesso a documentos individualizados das portarias.

Basta um exemplo para ilustrar. Uma curtinha, Portaria (sem número) do Ministério de Estado das Relações Exteriores de 29 de novembro de 2017.

  • Publicação oficial HTML: apresentada só ela na página-web, isolada de outras matérias, toda em HTML estruturado — com parágrafos de fato, títulos com marcação diferenciada, isolamento dos metadados, etc.
    Ainda carece de identificador de matéria, e a autoridade (ministério) ainda precisaria amadurecer criando seu “contador de portarias”… Mas já foi um avanço imenso estar em HTML!
  • Publicação oficial PDF: encontre o Wally! Além de ficar perdida num meio orientado ao papel, tente fazer um simples copiar/colar dos dois parágrafos de conteúdo.

Como eram antes os raros HTMLs de leis

O custo de se transcrever PDF para HTML não é pequeno quando se trata de texto oficial, pois precisa ser fiel e completo. Requer um ser humano acompanhando o trabalho do computador, o pagamento de licenças de software que ajudam no trabalho, e o gasto de horas quando re-diagramando itens e tabelas que o software não consegue. Por isso pouco era transcrito para HTML: apenas normas hierarquia superior, tais como leis e decretos, ficando de fora as portarias e os contratos.

Novamente basta um exemplo curtinho para ilustrar. “Lei nº 13.405, de 26 de Dezembro de 2016”. Uma daquelas que “Abre ao Orçamento Fiscal da União” e trata de um “crédito suplementar no valor de R$ 151.975.117,00”.

  • Publicação cara não-oficial HTML: teve custo para ser transcrita, principalmente por conter tabela, o custo de transcrição é maior. Mais grave: apresenta aquele vermelhinho no final, “ Este texto não substitui o publicado no DOU de 27.12.2016”. 
    Não tem valor de prova: milhões de brasileiros acessando e não tem valor algum como conteúdo auditado, nosso testemunho sobre esse documento não tem valor algum. Não é considerado oficial.
  • Publicação oficial PDF: só encontrei porque o LexML cita o link. Tente copiar/colar um simples parágrafo. Tente copiar/colar a tabela. Tente ler o conteúdo no seu celular. Tente ler no telão do seu computador ignorando a poluição visual da propaganda. 
    … Tente, depois de baixar uma cópia exata para o gravar no seu computador, convencer alguém de que é mesmo uma cópia exata — no rodapé tem um aviso “Este documento pode ser verificado … pelo código 00012016122700001”, que não tem utilidade alguma para fins de prova e auditoria do conteúdo publicado. O DOU até hoje, mesmo com o altíssimo custo de PDF e hospedagem, ainda não oferece checksum.

Como está agora!

Sempre pode melhorar, mas o salto de hoje foi imenso, devemos aplaudir!

  • Publicação barata e oficial HTML: irmã gêmea do PDF a publicação não tem custo adicional para os cofres públicos. Texto, titulo, tabela, metadados, tudo estruturado. Tudo ótimo para ler na telinha, ler no telão, para copiar/colar, para humano gravar, para computador gravar e tratar como bem entender.
    Aquilo que vemos é aquilo que auditamos! Ainda falta um checksum nos metadados, mas já foi demonstrada também boa-vontade dos gestores, na Casa Civil da Presidência, de melhorar a publicação neste sentido.
  • Publicação oficial PDF: com link na própria página-web HTML, como se fosse um metadado. De resto o mesmo, está lá por tradição e nossa própria segurança como cidadãos. Infelizmente ainda teremos que preservar o horrível PDF nesta era ainda de transição do papel para o digital. Por isso um irmão gêmeo necessário. 
    PS: auditar os custos de produção do PDF é essencial, é bem mais caro que HTML, e não faz sentido manter esse custo por muito mais tempo… Dentro de alguns anos o PDF poderá ser descartado, entrando em vigor o padrão universal aberto que o substituí, o EPUB com recurso moderno do CSS-break. Uma discussão mais profunda sobre o processo de modernização da indústria de publicações digitais pode ser acompanhado por aqui.