Levando o patinho feio ao nirvana: uma história de amor e ódio entre pdf e dados abertos

Fernando Barbalho
tchiluanda
Published in
5 min readApr 30, 2019

Não há como negar, o pdf é o patinho feio do campo de dados abertos. No modelo 5 estrelas de TBL ele é até considerado, mas aparece como uma estrela. Na LAI, as entrelinhas indicam que ele não é a melhor opção de entrega de dados por um órgão público. Nos intermináveis debates nos grupos de discussão, principalmente no Dados Abertos — BR do Telegram, alguns acusadores não economizam no verbo ao demonizar o formato. Contra todas as expectativas será que há espaço para o pdf em implementações de Dados Abertos?

Modelo 5 estrelas de dados abertos

Não vou deixar de concordar com grande parte do que é dito, escrito e muitas vezes gritado. Não há como os órgãos de governo se apoiarem prioritariamente em entrega de arquivos em formato pdf em um mundo em que as demandas por transparência e controle social exigem que sejam fornecidos dados processáveis por máquinas para uma ampla possibilidade de ressignificação. Porém eu sou complacente ao entender que existem situações em que no lugar do deserto absoluto de dados públicos, os dados em formato pdf podem vir a ser uma alternativa. Nesse texto publicado aqui no Medium, eu sugiro o seguinte: veja só, não vou ser radical aqui. Se o único dado que se tem disponível é num formato pdf, por exemplo, publica-se esse dado em pdf. Às vezes estamos tratando de um dado legado, ou de um relatório com texto, e não tem muito o que ser feito.

Quando escrevi isso estava pensando naquele enorme volume de relatórios em que os dados brutos são postos em contextos e ganham valor através de análises de especialistas. Essas análises passam então a ser novos dados brutos para futuros consumos. O ideal seria que esses textos fossem disponibilizados em outro formato além do pdf. Talvez um xml ou um formato específico de linguagem de marcação que pudesse ser possível em um momento futuro uma melhor análise de conteúdo. A questão é que isso requer maturidade, capacitação e investimentos que não são fáceis de se conseguir do dia para noite. Então pode-se dizer que os dados referentes às análises em formato pdf é o que tem para hoje. Aqui cabe um disclaimer: se os órgãos possuem os dados abertos brutos que deram origem às análises em formato processável por máquina, creio que seja obrigação disponibilizar esses dados além do relatório pdf.

O Tesouro Nacional é um dos tais órgãos que produz muito relatório e, advinha, todos em formato pdf. Por ano, de acordo com o calendário de divulgações STN, são produzidos e divulgados mais de uma centena de relatórios. Os técnicos da instituição se debruçam sobre os dados brutos e fazem análises apuradas sobre aspectos fiscais que estão sob a responsabilidade da instituição. A prática atual preferencial do órgão é publicar os dados brutos e os relatórios no portal Tesouro Transparente para que a sociedade possa consumir em seguida.

Extrato do calendário de divulgações STN — 2019

E como seria então uma possibilidade de consumo dos dados em formato pdf? A equipe do GT-CEAD do Tesouro Nacional, da qual faço parte, disponibilizou recentemente um produto todo desenvolvido em R que faz esse consumo diretamente do repositório de dados abertos, utilizando API desse repositório (CKAN).

Construímos essa história que consome dados abertos do Relatório do Tesouro Nacional (RTN). Em um dado ponto da história nós mostramos a evolução do fluxo de receitas de Imposto de Renda e destacamos um ponto fora da curva em outubro de 2016. Fazemos então a seguinte pergunta: O que levou a esse ponto fora da curva? A resposta não está nos dados brutos, mas já havia sido elaborada pela equipe de estatísticas fiscais da instituição. E onde está essa resposta? Num dos relatórios mensais que tratam do resultado primário do governo central. O que fizemos então: tornamos interativo os gráficos que mostram as receitas e despesas primárias. Em outras palavras, é dado ao usuário a possibilidade de ele clicar sobre qualquer ponto da curva. Quando ele faz isso, o nosso aplicativo Shiny consome através de API o repositório de dados abertos e traz para a tela o relatório em pdf associado ao mês que foi clicado pelo usuário.

Relatório RTN de outubro de 2016 (PDF) carregado após interação do usuário

O direcionamento da história indica que o usuário deve clicar no ponto relativo a outubro de 2016, observar o relatório que é povoado logo abaixo do gráfico e a partir da leitura do relatório procurar identificar o que gerou a excepcionalidade da curva. Lê-se logo nas primeiras páginas que o aumento expressivo do Imposto de Renda é decorrente de repatriação de receitas. Desse modo demos uma utilidade dentro do campo de dados abertos ao relatório de pdf através de uma navegação por contexto.

O arquivo pdf traz o contexto que explica o dado bruto

A partir de uma licença poética, podemos dizer que um formato de dado aberto de uma estrela possibilitou uma implementação esperada para cinco estrelas, o nirvana dos dados abertos, que é justamente associar um dado a outro. Nesse caso, os dados brutos de receitas primárias foram associados a dados analíticos que explicam o comportamento desse dado bruto.

Atingindo o nirvana

Às vezes o patinho feio tem seu momento de cisne. O arquivo pdf, fechado, difícil de se consumir, et cetera, possibilita na nossa story-telling o fornecimento do fio da meada narrativa. Permite uma navegação por contexto de uma história de mais de vinte anos sobre a política fiscal brasileira. Nesse caso, o pdf é parte da solução e não do problema.

< Para conhecer melhor como o GT-CEAD trabalha, recomendamos a leitura deste artigo.>

--

--

Fernando Barbalho
tchiluanda

Doctor in Business Administration from UNB (2014). As data scientist, researches and implements products for transparency in the Brazilian public sector.