Na imagem, um labirinto em meio a um parque. Foto de @benseibel em Unsplash.com

Catálogo de Dados em empresas: um olhar da Biblioteconomia/Ciência da Informação

Francisco Foz
IA Biblio BR Grupo
Published in
7 min readApr 9, 2023

--

Não é de hoje que estamos produzindo mais dados a cada dia. Coletar, processar, analisar, organizar, gerenciar e até mesmo buscar por dados continuam sendo desafios atuais.

Se você trabalha com dados, talvez você já tenha atuado em algum projeto que o cenário era semelhante a esse:

A empresa está com um problema de baixa eficiência operacional em seu principal escopo e isso está impactando os resultados gerais.

Para solucionar esse problema, a equipe responsável precisa buscar por dados, mas eles estão em diferentes fontes, armazenados em diferentes sistemas e bancos de dados, com diferentes padrões de qualidade, padronização e formatos.

Um verdadeiro labirinto para encontrá-los! :/

Se a empresa tiver um catálogo de dados, grande parte do tempo gasto com o processo de “Descoberta de dados” (trocas de e-mails, reuniões e entendimento de formatos e metadados dos dados) pode ser otimizado e até mesmo dispensado.

Mas afinal, o que é um catálogo de dados?

“(…) um catálogo de dados é um inventário organizado dos ativos de dados de uma empresa.

O catálogo de dados fornece uma visão geral apenas no nível de metadados (…).

Um catálogo de dados é basicamente um banco de dados com metadados que foram enviados ou extraídos de fontes de dados no cenário de TI de uma determinada empresa. Além disso, o catálogo de dados também possui um mecanismo de pesquisa interno que permite pesquisar os metadados coletados das fontes de dados.” — Data Catalog Enterprise

Ao ler essa definição, fica muito claro para mim (que sou um Bibliotecário) as similaridades entre um catálogo de dados e uma Biblioteca/catálogo de biblioteca.

Em fevereiro de 2023, a O’Reilly lançou o livro:

The Enterprise Data Catalog

Na imagem, a capa do livro “The Enterprise Data Catalog”.

O autor, Ole Olesen-Bagneux, é Bibliotecário/Cientista da informação, PhD e professor em Ciência da Informação na University of Copenhagen (Dinamarca). Além disso, ele trabalhou como arquiteto da informação em projetos de gerenciamento e governança de dados.

Eu li o livro e no texto de hoje irei trazer um breve resumo das suas 3 principais partes:

  1. Organização e pesquisa dos dados
  2. Democratização dos dados
  3. Futuro dos catálogos de dados

*Se você tiver interesse no livro, fique até o final do texto que irei trazer mais informações a respeito dele.

Bora lá!?

No GIF, Alice de Alice no País das Maravilhas em meio a um labirinto.

Sumário

Organização e pesquisa de dados

Democratização de dados

Futuro dos catálogos dos dados

Considerações finais

Organização e pesquisa de dados

O primeiro passo para iniciar a estruturação de um catálogo de dados é a sua organização, mas como organizar os ativos de dados?

A partir da categorização dos seus domínios.

Em TI o DDD — Domain Driven Design , é conhecido como um padrão de Design de Software voltado aos domínios da organização. Entretanto, o autor aponta que as técnicas da Biblioteconomia/Ciência da informação podem auxiliar melhor do que o DDD.

A categorização de domínios deve ser aliada aos processos e capacidades da organização, enriquecida pelos metadados das fontes de dados e metadados adicionados posteriormente no catálogo de dados.

Os metadados conseguem estruturar muito bem todo o contexto necessário para a transformação de dados (sem significado) para informações e a partir disso, conhecimento.

A estruturação dos metadados dentro do catálogo de dados poderão passar por técnicas especializadas da Biblioteconomia/CI:

• Taxonomias

• Tesauros corporativos

• Ontologias

• Folksonomias

Os metadados são extremamente relevantes para a recuperação da informação nos ativos de dados, pois mesmo que haja uma “consulta perfeita”, se eles não estiverem mapeados corretamente, não haverá retorno.

“(…) ao pesquisar dados, você precisa buscar como um bibliotecário treinado para pesquisar por dados , e não como um cientista de dados treinado para pesquisar nos dados. Com a mentalidade de um bibliotecário, você encontrará maneiras criativas de desbloquear os recursos de pesquisa.” — Data Catalog Enterprise

Pesquisar por dados (ativos de dados, informações) estruturados em um catálogo de dados se assemelha muito a busca em bases de dados científicas. Onde pessoas bibliotecárias entendem todo o processo da formação da “string de busca”, considerando cada aspecto da necessidade da informação para o “problema”, disponibilidade de recursos de metadados e balanceando de acordo com o nível de precisão e revocação (entropia da informação) necessários.

Democratização de dados

O catálogo de dados é uma ferramenta que, bem trabalhada, pode auxiliar na democratização de dados dentro da organização.

A qualidade de um catálogo de dados pode ser considerada uma equação de vários fatores. Um dos principais fatores não é o volume de ativos de dados organizados, nem mesmo a forma de como está organizado, mas sim a quantidade de usuários que estão engajados utilizando eles.

Um dos principais objetivos da Biblioteconomia é fomentar o uso da informação.

Assim, parafraseando Ranganathan em sua primeira lei:

Os ativos de dados existem para serem usados”

Mas para garantir todo esse processo em um ecossistema empresarial são necessários diversos processos estruturados, envolvendo os principais usuários:

  • Especialistas no negócio;
  • Especialistas em dados (analistas de dados, cientistas de dados etc);
  • Especialistas em governança de dados.

“Um catálogo de dados é uma rede social” — Data Catalog Enterprise

Para que as empresas possam aproveitar o máximo dos catálogos de dados, elas não podem olhar para a ferramenta como uma tecnologia que irá solucionar por si própria. Por este motivo, o autor foi até mesmo agnóstico a ferramentas de catálogos de dados, pois a escolha da ferramenta dependerá de diversas particularidades da organização.

Entretanto, ele também deixou orientações de como avaliar e escolher os melhores fornecedores.

Futuro dos catálogos dos dados

Vamos imaginar que conseguimos estruturar e organizar o ecossistema informacional do catálogo de dados, os usuários inserem novos conjuntos de dados com frequência, compartilham ativos de dados com outras áreas (trocando informações com mais velocidade) e principalmente: buscam ativos de dados (informações) com facilidade.

Esse é um cenário excelente, mas as perspectivas de ganhos com os catálogos de dados vão ainda mais além.

O autor relata que não apenas iremos apenas facilitar a busca por dados e informações, mas também iremos fomentar a produção e gestão de conhecimento para vantagem competitiva (que pode ser ilustrada pelo modelo DIKAR).

A imagem é um infográfico sobre dados, informações, conhecimento, ação e resultados, nele há conexões que mostram os meandros entre esses elementos. Fonte da imagem

Se quiser saber mais a respeito do modelo DIKAR, fica esse artigo para leitura:

Critical Overview of Information Management, DIKAR Model and Technology in the 21st Century

O catálogo de dados é uma nova evolução para um novo motor de busca das empresas. (…) O motor de busca da empresa será um novo meio de comunicação que irá expandir a forma como o ser humano se expressa e pode agir.” — Data Catalog Enterprise

O gerenciamento de dados promove uma maior consistência nas informações.

O gerenciamento de informações consistentes promove um maior contexto de cenário para a produção de conhecimento.

O gerenciamento de conhecimento permite analisar o comportamento humano em suas ações.

Os catálogos de dados serão parte de uma memória organizacional profunda, que permitirá analisar comportamentos de buscas e tomadas de decisões a partir de contextos claros e facilmente reprodutíveis.

Considerações finais

Indico a leitura do livro para qualquer pessoa que queira entender sobre o “poder” dos catálogos de dados… ou melhor, o “poder” da Ciência da Informação através de catálogos de dados.

Segue link para a página na editora:

Em breve, sairá um vídeo da entrevista com o autor, Ole Olesen-Bagneux, nos canais Gabs Ferreira e IA Biblio BR, então ativa o sininho e se inscreva nos canais.

Também gostaria de agradecer ao grupo: “Gestão Documental e Serviços de Organização de Arquivos e Acervos” que também participou do evento.

E se você quiser saber mais a respeito do autor, segue website:

Agora me diga:

O que você pensa a respeito da implantação efetiva de catálogos de dados em empresas?

Deixe nos comentários e vamos conversar mais a respeito

Se você chegou até aqui e curtiu, dê palmas, compartilhe e se inscreva para me acompanhar.

Ainda há muito a se explorar…

Atualizações de novembro de 2023 💡

O livro em português foi lançado em setembro de 2023 e pode ser acessado no link a seguir:

A entrevista mencionada, também já está disponível:

Vídeo do Youtube — Catálogo de Dados: um novo olhar na busca de dados

✍ LinkedIn do autor: https://www.linkedin.com/in/francisco-tadeu-foz/

👩‍💻 LinkedIn do IA Biblio BR: http://bit.ly/IABiblioBRLinkedIn

🎬 YouTube do IA Biblio BR: https://youtube.com/@IABiblioBRGrupo

📰 Conheça nossa publicação: https://medium.com/ia-biblio-br

--

--

Francisco Foz
IA Biblio BR Grupo

Bibliotecário | Analista de dados | Disseminando informações para produzir conhecimento.