Frictionless Data

Dados com menos atrito

Texto traduzido e adaptado de frictionlessdata.io/about/

Somos da comunidade de dados abertos e transparência. Nos colocamos dos dois lados: de quem publica os dados e de quem os consome. O atrito ou “fricção” ocorre quando os consumidores gastam tempo e recursos demais apenas para poder entender e trabalhar com os dados.

Os consumidores de dados abertos merecem mais respeito e a chance de interpretar com precisão (sem custo adicional) os dados fornecidos. Do lado de quem produz, o atrito se refere à dificuldade de encontrar consensos sobre, por exemplo, quais nomes usar nas colunas de uma planilha, ou quais padrões utilizar para descrever os tipos de dados permitidos em cada coluna. Até a decisão sobre qual formato de documento adotar: os consensos da nossa comunidade são transformados em padrões, e ao adotarmos padrões consensuais estamos garantindo, para ambos os lados, a redução do atrito.

Nossa Visão

O objetivo da iniciativa “Frictionless Data” é de remover o atrito no trabalho com dados. Para alcançar esse objetivo estamos desenvolvendo uma série de ferramentas, padrões, e boas práticas para a publicação de dados. Central à noção de dados sem atrito está o padrão de Pacote de Dados , um formato de contentorização para qualquer tipo de dado, baseado em práticas existentes de publicação de software open-source.

A partir do nosso trabalho no desenvolvimento e implementação do CKAN e do aprendizado sobre os vários fluxos de publicação de dados, percebemos que existe muito atrito no trabalho com dados. Estes atritos que queremos remover — na aquisição, compartilhamento, e validação dos dados — impedem as pessoas de extrair benefício verdadeiro da multitude de dados sendo abertos todos os dias. Isso mata o ciclo procurar/melhorar/compartilhar que torna o ecossistema de dados dinâmico e produtivo.

Providenciamos, em apenas uma camada, uma estrutura de transporte de dados básica que reduz significantemente o atrito no compartilhamento e integração de dados, que apoia a automação, e os faz de maneira a não impor mudanças drásticas nos dados subjacentes sendo empacotados. Focamos não só em dados tabulares, mas também qualquer outro tipo de dados que possa ser “empacotado”. A natureza simples e leve desse empacotamento torna fácil sua adoção por publicadores, por usuários de dados e por criadores de ferramentas.

Temos trabalhado nestes e outros problemas similares por quase uma década, e desta vez pensamos que chegou a hora de dados sem atrito. Ajude-nos a chegar lá.

“Conteinerização” de dados

Vemos nossa abordagem como análoga aos esforços de padronização no transporte de bens físicos. Historicamente, o carregamento de bens em um navio de carga era um processo lento, manual, e caro. A solução encontrada para estes problemas veio na forma da conteinerização, o desenvolvimento de diversos padrões ISO especificando as dimensões dos containers usados em transporte internacional. Com a consequente automação de vários elementos da cadeia de transporte, a conteinerização reduziu dramaticamente o custo e tempo requeridos para o transporte de bens.

Atualmente o transporte de dados entre ferramentas pode ser considerado comparável ao transporte de bens físicos na era pré-conteinerização. Hoje em dia, antes que se consiga começar de fato uma análise dos seus dados ou criar um aplicativo que faz uso intensivo de dados, é necessário extrair, limpar, e preparar os dados: procedimentos que são lentos, manuais, e caros. Melhoras radicais na logística de dados —através de especialização e padronização — pode nos levar a um mundo onde gastamos menos tempo ordenando e limpando dados e mais tempo criando conhecimento útil.

Princípios

1. Foco: Concentrar em uma parte do fluxo de dados, um aspecto específico (e.g. empacotamento), e em tipos específicos de dados (e.g. tabulares).

2. Orientação à Web: Construir para a web, usando formatos que funcionam naturalmente com HTTP, tal como JSON, um formato de troca de dados comumente usado por APIs de web, e CSV, que é facilmente usado em transmissões em tempo real (streaming).

3. Distribuição: Projetar com a visão de um ecossistema distribuido sem centralização, sem ponto único de falha, nem dependência.

4. Abertura: Criar de maneira que qualquer pessoa possa usar e reusar a criação livremente e abertamente, em uma comunidade que é aberta a todos.

5. Criação com ferramentas existentes: Integrar com ferramentas existentes assim como projetando para uso direto — por exemplo, quando uma integração usando um Pacote de Dados Tabulares não está disponível, use um formato CSV.

6. Simplicidade: Manter os formatos e metadados simples e leves, de maneira que sejam fáceis de aprender e de usar, não fazendo mais do que o necessário no cumprimento dos seus objetivos.