O dia que a Receita nos mandou pagar R$ 500 mil para ter dados públicos
Trabalhar com ciência de dados para inovação cívica é, basicamente, transformar as grandes quantidades de dados disponíveis no nosso país em informação. Entram milhares de linhas e colunas com conteúdos públicos e sai algo que qualquer cidadão consiga entender.
Esse é o nosso “job description”. Mas não é o nosso maior desafio.
É impossível fazer ciência de dados sem um produto básico: os dados. E ter acesso aos dados públicos está longe de ser uma tarefa fácil. Na verdade, é tão difícil que, nesses dois anos de trabalho de Serenata de Amor, acabamos nos aproximando e solidarizando com outras pessoas que fazem o mesmo trabalho. É preciso unir forças.
Muitos dados não estão sequer disponíveis. Outros, estão disponíveis, mas pouco acessíveis. Alguns não estão em um formato legível por máquinas, o que é exigido por lei: dados que podem ser lidos individualmente aí por você, mas que não fazem o menor sentido para a Rosie, o que impossibilita escalar o trabalho de fiscalização com inteligência artificial.
No começo de junho, um desses grupos dos quais fazemos parte, junto com o Álvaro Justen (o Turicas, que inclusive já faz um trabalho de busca desses dados há um tempo) e o Bruno Morassutti, de iniciativas diferentes, decidiu se unir para pedir um desses tipos de dados complicados: as fichas de CNPJ das empresas do Brasil.
Esse dado é público, mas, ao contrário do que determina a Lei de Acesso à Informação (Lei nº 12.527/2011, art. 8º, § 3º, inciso III), não são acessíveis por máquina. A Receita Federal disponibiliza esses dados, mas põe um “captcha” (aquela parte do formulário em que temos que digitar as letras tortas que aparecem na imagem, ou clicar nos quadradinhos que tem um objeto específico, sabem?). Isso quer dizer que a Receita descumpre a Lei ao impedir que a Rosie e qualquer outro robô tenha acesso a esses dados.
E para que isso seria útil? Nessa ficha, a gente vê a localização, o status, as atividades-fim da empresa, desde quando ela funciona. Dados valiosos para nós, mas que só podem ser vistos um de cada vez.
Sim, um por vez. Se você quiser informações sobre uma empresa, você precisa entrar lá, passar pelo captcha, para provar que não é um robô, e ter acesso aos dados daquela única empresa. Se quer ver de outra empresa, repete todo o processo mais uma vez. Se você é a Rosie, aí não tem jeito. Mesmo tendo a lei ao teu lado, você está impedida de acessar esses dados.
E isso é um dado aberto, não é? É. Mas ele é acessível?
Não. A Lei de Acesso à Informação diz que os dados públicos tem que ser acessíveis e legíveis por máquinas. Nosso objetivo é usar inteligência artificial para saber por onde o dinheiro público circula: se políticos fazem parte do quadro societário de empresas, qual o ramo de atuação das empresas, qual o perfil das companhias financiou campanhas anteriores e se há trâmite entre políticos e parentes por meio de contratações públicas, se essas contratações batem com a atividade-fim da empresa..
Agora imagina fazer qualquer um desses cruzamentos manualmente quando um único deputado destina dinheiro público a dezenas de empresas diferentes por mês.
Por isso, nós decidimos nos juntar e pedir para que a Receita Federal disponibilizasse essas informações todas de um jeito mais fácil de trabalharmos. Para a Rosie ou qualquer outra iniciativa de ciência de dados.
E a resposta deles não foi nada do que a gente esperava.
A Receita indicou que esses dados já estavam disponíveis (lá, com captcha). E se quiséssemos ter acesso a todos eles de uma única vez, em um formato legível por máquinas, poderíamos recorrer ao SERPRO, que é uma empresa e cobra por esses serviços — alguns centavos, mas cobra.
Uma pechincha, né?
Pois vamos aos cálculos. Se quiséssemos consultar uma única vez os CNPJs de todas as empresas do Brasil, isso nos custaria exatos R$ 506 mil. Aproximadamente 6 vezes o valor total que a Operação Serenata de Amor levantou em seu primeiro crowdfunding, que viabilizou a criação da Rosie.
Um dos argumentos dado pela Receita Federal é que nosso pedido implicaria em altos custos para eles. Porém, os dados já podem ser acessados e já estão sendo armazenados e processados. Ou seja, o custo, tanto de armazenamento quanto de busca e processamento, já existe.
Manter uma API tem custo e nós sabemos disso.
Porém o valor, além de alto comparado a outras APIs do mercado, não é muito claro. Nem a Receita, nem o SERPRO, explicaram o que compõe o preço, que foi a única alternativa oferecida pelo órgão — e essa composição do preço, nesse caso, também é exigida por lei (art. 6º do Decreto Federal 8.777/16). Não sabemos por que teríamos que pagar tão caro e sequer tivemos outra solução, ainda que fosse um download único de todos os dados ou um convite para ir até lá com um pendrive vazio.
Ok, os dados não cabem em um pendrive, mas se a solução fosse ir buscar fisicamente os dados, que já estão sob posse da Receita, faria mais sentido. O que não queremos — e não vamos — é ter que recorrer a soluções ilegais, como quebrar o captcha do site.
Nossa sugestão é uma API que limite o número de acessos durante um determinado tempo visando exclusivamente a conservação dos recursos usados hoje. Essa limitação seria temporal (espera) e não tecnológica (captchas), fazendo com que a Rosie apenas esperasse um pouco mais para conseguir os dados ao invés de não consegui-los de forma alguma. Outra opção seria disponibilizar o arquivo com os dados para download.
Nenhuma das duas foi oferecida.
Entre fazer um novo recurso e sair pedindo dinheiro novamente para seguir com nossos projetos, ficamos com a primeira opção. Agora é aguardar uma solução que nos possibilite continuar nosso trabalho em tecnologia. Os dados são públicos, mas para serem acessíveis teríamos que pagar meio milhão de reais a cada vez que quiséssemos consultá-los.
Transformar dados em informação é uma ciência.
Conseguir dados públicos para isso é uma arte. Seguimos tentando.
Edit
A Receita Federal não respondeu o nosso recurso dentro do prazo de 5 dias estipulado pela Lei de Acesso à Informação. Pela experiência que já temos, o órgão pode nos responder a qualquer momento (já levamos meses para receber retornos cujos prazos eram dias). Mas dessa vez não podemos esperar mais. Nossa equipe vai entrar com um novo recurso. Esperamos que conseguir uma resposta não seja tão difícil quanto conseguir os dados.