De Shakespeare à web semântica: um be-a-bá para o setor público

Como uma palavra feia saiu da filosofia, foi parar na computação e pode ser o que falta para pular algumas casas na transparência no setor público

Ontologia. Talvez você nunca tenha ouvido essa palavra. Ou, se ouviu, provavelmente não tem a menor ideia do que um ramo da filosofia que trata da existência dos seres pode ter a ver com transparência e dados públicos.

Calma. Para explicar, não vamos voltar a Aristóteles nem a Tomás de Aquino. Nossa história começa bem mais perto — mais precisamente, no computador velho que enfeita a repartição pública mais próxima da sua casa.

O be-a-bá dos dados abertos e o ser ou não ser dos dados no setor público

Uma das grandes novidades na relação entre cidadãos e governo nos últimos anos foi o movimento por mais transparência do Poder Público. A Lei de Acesso à Informação provocou uma verdadeira revolução ao transformar a publicidade em regra, e o sigilo em exceção. Mas, toda revolução tem um limite: a qualidade da abertura será sempre — no melhor dos casos — tão boa quanto a habilidade do próprio governo em lidar com a informação que controla.

Na maioria dos órgãos públicos do Brasil, o padrão de gestão da informação ainda são formulários em papel, mal preenchidos à mão e enfim condenados à morte lenta na gaveta mais próxima. Com sorte, algum servidor passará a informação para um programa de planilhas — que provavelmente se perderá quando esse servidor se aposentar ou houver uma troca de gestão.

Pastas e caixas com papéis preenchendo duas paredes de estantes.
Acervo de uma Promotoria de Justiça antes de um processo de digitalização.

Vários atores do setor público têm feito um esforço notável pela transformação digital. Mas esses esforços também esbarram em limitações: digitalização apenas da porta para fora (sem transformar os processos internos), sistemas que reproduzem a lógica do papel e serviços que desconsideram a desigualdade de acesso dos cidadãos às novas tecnologias. Além disso, a transformação digital ainda é uma realidade distante da maioria dos estados e municípios brasileiros.

Sabendo das dificuldades que rondam a governança de dados em grandes organizações, Tim Berners-Lee (um dos fundadores da web como a conhecemos) propôs um esquema de abertura de dados em cinco etapas — ou cinco estrelas:

  • 1⭐: Os dados podem ser encontrados na web, com uma licença que permita o reuso e o compartilhamento;
  • 2⭐: Os dados estão em formato estruturado (por exemplo, em planilha, ao invés de um PDF escaneado);
  • 3⭐: Os dados estão em um formato não proprietário (por exemplo, em CSV, e não em Excel);
  • 4⭐e 5⭐: Os dados têm “endereços” que não mudam, e referenciam esses endereços ao invés de criar novas classificações.

Vamos falar das 4⭐e 5⭐ estrelas daqui a pouco. Por enquanto, basta saber que a maioria dos dados abertos no Brasil conseguem chegar no máximo até a terceira estrela.

De Hamlet à web semântica

Computadores são burros. Eles conseguem fazer contas rápidas, mas não conseguem entender contexto da mesma forma que os humanos.

Por exemplo: um ser humano não teria problema para entender que “Escola Municipal Professor Paulo de Almeida Campos” é a mesma coisa que “E. M. Prof. Paulo de Almeida Campos”. Também não teria para entender que esse é um lugar onde pessoas jovens vão estudar.

Para computadores, inferências como essas podem ser extremamente complicadas. E treinar um deles a reconhecer esse tipo de contexto pode custar muitas horas de trabalho de um ser humano.

Matriz alternando fotos de chihuahuas e de muffins — os dois muito parecidos.
Muffin ou chihuahua? Os seres humanos estão há anos tentando ensinar computadores a diferenciar os dois. Fonte: Metamaven.

Para resolver esse problema, os programadores inventaram as tais “ontologias”. O termo é emprestado da filosofia, mas, em computação, significa apenas uma série de links que relacionam um conjunto de palavras com as suas definições (isto é, um “vocabulário”) e contam para o computador quais são as relações esperadas entre essas palavras. Por exemplo: um professor costuma trabalhar em uma escola, mas uma escola não trabalha em um professor.

O principal uso imaginado para as ontologias seria criar uma web semântica, que fosse entendida por humanos, mas também tornasse os computadores um pouco menos burros em relação ao que falamos e escrevemos. Mas o conceito encontrou uma aplicação também no que se têm chamado de dados abertos conectados — aqueles das quatro e cinco estrelas, em que os dados fazem referências uns aos outros por meio de identificadores que não mudam.

De braços dados, superando os custos fixos

Quando pintamos aquele quadro da gestão da informação no setor público, talvez tenhamos sido um pouco injustos. É verdade que muitos serviços públicos hoje rodam sobre algum tipo de sistema de informação, que transforma os formulários digitados pelo servidor público em tabelas por trás dos panos. Idealmente, essas tabelas podem ser consultadas e gerar inteligência sobre as políticas públicas.

O problema é que, sem um combinado, cada fornecedor de sistema — ou cada usuário — é que decide se escreve “Escola Municipal” ou “E.M.E.F.”, e se guarda ou não os dados dos anos iniciais do Ensino Fundamental na mesma tabela que os dados do 6º ao 9º ano. Para quem quer acessar esses dados e entender a realidade da rede de ensino, essa variedade de padrões pode ser um desafio em tanto. O resultado é que se torna muito mais difícil usar os dados públicos para monitorar e pensar políticas públicas mais efetivas.

Página de referência de uma escola no Reino Unido
No Reino Unido, todas as referências a um estabelecimento de ensino podem ser direcionadas a um nome e endereço único. Assim, diferentes sistemas conseguem se entender. Fonte: GOV.UK.

Quem leu o post anterior sobre contratações abertas já conhece as vantagens dos padrões de dados abertos. Mas qualquer padrão só tem chance de sobreviver e crescer se tiver responsáveis claros pelo seu desenvolvimento, uma comunidade vibrante de usuários e mecanismos para incorporar inovações em um fluxo de melhoria contínua.

Até hoje, as ontologias e os dados abertos conectados têm sido pouco mais do que só uma boa ideia — e não só no setor público. Para os governos, há a dificuldade adicional de reconhecer valor em algo que têm um grande custo fixo (afinal, para ensinar os computadores como os humanos pensam, são necessários… humanos) e que, quando pronto, será invisível para a maioria dos cidadãos.

As primeiras tentativas de construir uma infraestrutura para dados públicos conectados no Brasil acabaram congeladas ou avançam devagar. Em grande parte, porque delegam a tarefa a um ou poucos órgãos, que dificilmente conseguem vender a importância do que estão fazendo durante muito tempo.

Os ganhos potenciais no controle e na qualidade das políticas públicas não nos permitem simplesmente desistir de subir esses últimos degraus na escada da transparência do setor público. Quem sabe, até pulando alguns e evitando o retrabalho dos hackers cidadãos, desenvolvedores de sistemas, e de usuários diretos e indiretos dos dados públicos.

Exemplos e ferramentas já existem para demonstrar que é possível criar uma infraestrutura de dados abertos de forma colaborativa. Resta saber se é possível um arranjo interinstitucional e interfederativo que leve esse projeto à frente — contando também com a Academia e a sociedade civil.

Vamos juntos?

EDITADO: Se você se interessou pelo assunto e quer aprender mais, confira os materiais disponíveis na wiki da Infraestrutura Nacional de Dados Abertos, referentes a uma série de capacitações realizadas entre 2012 e 2013. Confira também o ótimo Guia de Web Semântica do NIC.br, produzido em parceria com o Governo de São Paulo e o Governo do Reino Unido.

Este artigo não representa a opinião institucional do Ministério Público do Estado do Rio de Janeiro, de seus órgãos ou integrantes, sendo de iniciativa e responsabilidade exclusivamente pessoal da autora.

Este material é disponibilizado sob licença Creative Commons Atribuição 4.0 Internacional (CC-BY 4.0). Você é livre para compartilhar e readaptar o conteúdo para qualquer fim, mesmo que comercial, desde que cite a fonte original.

A licença não inclui trechos de texto ou mídia de outros autores reproduzidos no post. Verifique com o autor do trabalho original sobre as condições para compartilhamento e reuso.

--

--