Como a governança de dados podem ajudar a democratização dos dados?

John Costa
Oct 31, 2018 · 10 min read

I. Introdução

A proposta deste artigo é desmistificar de forma mais prática, como funciona a governança de dados, tendo como foco uma das áreas do Dama DMBOK: Gestão de Metadados.

Partimos de um cenário hipoteticamente real, demonstrando como a gestão de dados\metadados é necessária para democratizar os dados de um Data Lake e mais do que isso, demonstrar que nos bastidores da governança de dados, há muito trabalho, processos, pessoas e tecnologia, que habilitam o dia-a-dia de um analista\engenheiro\cientista de dados.

II. Big Data

Big Data é um conceito que pode ser definido pelos 5 V’s

1. Volume — Atualmente geramos enormes quantidades de dados e espera-se que a quantidade de dados que será gerada nos próximos anos terá um crescimento exponencial com a popularização da IOT (Internet das Coisas).

2. Variedade — Dados são produzidos em diversas fontes, não necessariamente estruturada como tabelas, podendo ser imagens, áudio, documentos e etc.

3. Velocidade — Dados precisam ser analisados em tempo hábil, ou seja, é necessária uma estratégia que permita a análise quase que imediata dos dados recebidos.

4. Veracidade — Os dados coletados precisam ser íntegros.

5. Valor — Os dados coletados precisam ser relevantes para a companhia.

Se procuramos na literatura, encontraremos mais V’s, mas este não é o tema central deste artigo.

Existem desafios referentes à inconsistência e integridade dos dados coletados, falta de normalização o que dificulta a análise e integração de dados. Existem também problemas éticos e de confidencialidade de dados.

O fato é que Big Data se tornou uma realidade e agora empresas precisa mais do que nunca tratar os seus dados como ativos intangíveis, o que inclui controlar, monitorar… ou seja governá-los.

III. Governança de dados

Data Management Body of Knowledge (DAMA DMBOK®) é um framework de boas práticas de gestão de dados, que tem como intuito transmitir a importância da gestão de dados.

Entre a 10 funções de gestão de dados, focaremos na função de Gestão de metadados.

As 10 Funções da Governança de Dados

Segundo Data Management Body of Knowledge (DAMA DMBOK®) governança de dados é o “Exercício de autoridade, controle, planejamento, monitoramento, disponibilidade, segurança e execução dos ativos de dados e seu respectivo consumo”.

Em outras palavras, governança de dados é uma estrutura que coordena, orienta e define regras para criação, reuso e consumo dos dados.

Planejamento da Governança de dados é similar a um planejamento de saúde a longo prazo.

Segundo Rajeev Priyardashi da IBM, a governança de dados é como planejar a saúde a longo prazo. Criativamente ele nos exemplifica isso com a seguinte pergunta:

Por que devo cuidar da minha saúde?

R: Porque pretendo correr e brincar com meus netos quanto tiver meus 70 anos.

Por que deve aplicar governança de dados? R: Porque poderemos tomar melhores decisões de negócio, teremos os melhores insight’s, nossos riscos de segurança de dados serão minimizados.

E como monitoramos afetividade do programa de saúde?

  • Checando o peso semanalmente\mensalmente.
  • Monitorando a pressão.
  • Realizando checkups regularmente.

Como monitoramos a efetividade do programa de governança de dados?

  • Avaliando o nível no programa de maturidade de dados (Inicial, reprodutível, definido, gerenciado e otimizado)
  • Monitorando a qualidade dos dados.
  • Escolhendo as ferramentas e tecnologias para suportar a governança de dados.
  • Garantindo treinamento adequado para cada membro do time.
  • Auditando e comunicando não conformidade de dados e metadados, assim como provendo feedback de cada progresso realizado.

Não implementar a Governança de Dados representa um risco para qualquer empresa entre eles posso citar:

a) Criação de bases sem critério definido.

b) Proliferação de silos informacionais.

c) Qualidade duvidosa dos dados.

d) Dificuldades em se reutilizar dados existentes.

e) Problemas de conformidade regulamentar (auditorias e Compliance).

V. Metadados

Metadados é frequentemente chamado de dados sobre dados ou informação sobre informação.

Por exemplo ao tirar uma foto, a imagem em si (conteúdo) é o dado, já as informações desta imagem, como: nome, data, horário, resolução, tamanho e até geolocalização (se você tirou pelo celular e o recurso estiver ativo) são considerados metadados

Metadados são informações estruturadas que descrevem, explicam, localizam ou fazem com que seja mais fácil de recuperar, usar ou gerenciar um recurso de informação, geralmente referem-se a modelos de dados e estruturas e não ao conteúdo propriamente dito, podem conter termos de negócio, atributos de um modelo logico de dados ou tabelas\colunas de um banco de dados.

Segundo o DAMA-DMBOK Gestão de metadados:

“É a função responsável por gerir e armazenar metadados de uma organização, além de viabilizar formas de acesso”.

A gestão de metadados, é parte fundamental na democratização dos dados, sem metadados disponível atualizado e confiável, o cientista de dados terá seu trabalho comprometido.

Os metadados se dividem em duas subcategorias: os técnicos e os de negócios:

Metadados de Técnico

  • Modelo Logico — Contém as entidades, atributos e relacionamentos.
  • Modelo físico — Contém os bancos de dados, tabelas.
  • Integração de dados — Contém movimentação e transformação dos dados (Datalineage).
Exemplo de Metadados Técnico

Metadados de negócio

Glossário de negócio e taxonomias — Contém os termos de negócio, suas definições, sinônimos e as taxonomias também chamadas de classificações que determinam como um elemento poder ser categorizado, por exemplo para sexo a classificação disponível na companhia seria: Masculino e Feminino.

Exemplo de Metadados de Negócio

Quanto à qualidade do metadados eis o que o DAMA DMBOK define:

1. Aderência ao negócio: O metadados deve esta aderente aos requisitos da informação e regras de negócio da empresa.

2. Unicidade — O metadado deve ser único na empresa, sem duplicidade de conteúdo ou conceitos.

3. Manutenibilidade — Baixo custo de manutenção dos metadados.

4. Confiabilidade — Indica que o metadados é correto e mais atualizado sem afetar qualquer tipo de uso.

5. Performance — Tempo de resposta e acesso aos metadados satisfatórios.

6. Legibilidade — Fácil entendimento e uso dos metadados.

7. Disponibilidade — Metadado de fácil acesso e disponibilidade para quem tem o devido acesso.

VII. O cenário

Para exemplificar a gestão de metadados de forma prática, vamos imaginar o seguinte cenário:

Paulo o mais novo Cientista de Dados acabou de ser contratado pela área de Seguros de uma fintech (startup financeira).

Sua primeira atividade será alavancar o cros-sell do cartão Black (alta renda).

Para isso ele vai precisar consultar a base de clientes ativos que sejam propensos a contratar um cartão Black.

Persona Cientista de dados

Persona Cientista de dados

Cenário comum:

  • Procurar os responsáveis pelas bases
  • Dúvidas quanto a confiabilidade dos dados encontrados.
  • Dúvidas como usar o que foi encontrado.
  • Dúvida quando aos Datasets relacionados

Como foi o cenário na empresa de Paulo:

Paulo foi direcionado a falar com a governança de dados, que o indicou utilizar uma espécie de portfólio de dados. Através de uma interface amigável, Paulo localizou de forma fácil e intuitiva as bases que precisava. Paulo observou que a ferramenta que utilizou tinha um glossário de termos com sinônimos, percebeu também que havia uma certa organização(taxonomia) que permitia o filtrar as bases por categoria de assuntos.

Mas como isso pode se tornar possível?

A Empresa de Paulo entende que a governança de dados é um programa e não pode ser simplesmente adotada através de um projeto, que por sua definição é um esforço temporário para criar um produto ou serviço, eles entendem que a governança é um esforço contínuo e que precisa ser distribuído entre pessoas, processos e tecnologias.

Componentes necessários da Governança de Dados

Pessoas

A gestão de dados da empresa de Paulo tem pessoas com papeis estratégicos que patrocinam o programa, como o Chief Data Office (CDO) e diretores em geral.

Pessoas, na área de negócios como outros cientistas de dados, analistas, gestores, gerentes e pessoas com papeis técnicos como Engenheiros de dados, DBA’s, AD’s também fazem parte deste time.

Além disso, todos tem em sua matriz Raci atividades de governança, e são avaliadas pelo sucesso do programa também.

A fintech tem um Glossário unificado

  • A fintech tem unificada com todos os termos de negócio e suas descrições. O Glossário fica hospedado em uma interface que facilite a navegação e a pesquisa por um determinado termo e em ordem alfabética. Isso permite que a empresa fale a mesma “lingua” e os termos signifiquem sempre a mesma coisa.
Exemplo Business Glossary

A fintech tem uma Taxonomia aderente ao negócio

A taxonomia é um sistema que classifica e facilita o acesso à informação.

Permite alocar, recuperar e classificar informações dentro de um sistema de forma lógica.

A classificação hierárquica pode auxiliar os usuários à entender como o conhecimento explícito pode ser agrupado e categorizado.

Exemplo de Taxonomia

A taxonomia, foi desenvolvida com diversos profissionais entre eles bibliotecários, analistas de negócio e de TI. A Taxonomia é associada aos metadados das bases que são capturada para o Data Lake isso habilita o Search Engine para pesquisas mais naturais.

Eles possuem uma interface amigável para acesso aos metadados

  • A interface que Paulo, nosso cientista acessou permite pesquisar todos os tipos de metadados, essa plataforma utiliza-se da taxonomia + termos de negócio + Metadados o que habilita o Search Engine da companhia realizar pesquisas de texto livre favorecendo uma descoberta de dados mais natural (com termos do glossário, sinônimos e apelidos)

Mas, como tudo isso funciona? Desde a chegada de um dado, até seu cadastro no portfólio?

Estrutura de Gestão de metadados (Lake)

A fintech tem uma interface de Ingestão automatizada de dados orientados por metadados, portanto quando o engenheiro cadastra o layout de um arquivo no Engine Ingestion, os metadados técnicos (preliminares) são capturados isso reduz a sobrecarga da equipe de TI.

Após isso os metadados são enviados para o repositório de metadados.

O serviço Vigilante valida os metadados técnicos preliminares, caso exista alguma não conformidade são gerados alertas e atualizadas as métricas.

Caso os Metadados técnicos estejam corretos é gerada uma requisição de atualização de metadados à área de Negócio.

Em paralelo é gerada uma requisição de Ownership para negócios e Ti, onde dentro de determinado SLA, é necessário definir o: Business Owner, Data Steward, Tecnical Owner e o Data Custodian.

Os metadados de negócios são atualizados seguindo a estrutura da taxonomia e glossário de negócios; é feita atualização do Business Owner, com este definido, a governança de dados valida o metadados.

Metadados estando ok, o mesmo é indexado pelo motor de busca e fica disponível no portfólio de dados, onde Paulo iniciou sua pesquisa.

Além disso a empresa tem outros processos automatizados que fazem a extração de metadados de banco de dados relacionais, por fim todos são concentrados em um DataMart de Metadados.

O que temos acima pode é a junção de:

1. Interface de cadastro de Metadados: Deve existir um formulário para preenchimento dos metadados de cada base de dados que será movida ou criada. Os metadados devem seguir a estrutura da taxonomia e termos pré-cadastrados no repositório de termos;

2. Fluxo de aprovação de Metadados: A organização deve contar com uma solução de fluxo de aprovação, que permita o controle da criação dos metadados. O fluxo deve contar com uma etapa obrigatória de aprovação por parte da área de Gestão de Metadados, caso seja necessário algum ajuste, deve ser enviado novamente para o criador dos metadados em questão. O processo de criação de uma nova base ou movimentação de uma já existente, só deve prosseguir após a aprovação dos metadados;

3. Search Engine: Se faz necessário uma ferramenta robusta de Search, que permita a indexação dos metadados existentes e a consulta dos mesmos de forma rápida e que permita de o usuário utilizar filtros de acordo com a taxonomia e metadados criados;

4. Gestão: Uma área dedicada a gestão dos processos de criação e manutenção de metadados se faz necessário para que a organização mantenha e melhore a qualidade de seus dados, garantido assim que as metas da empresa não sejam impactadas por falta de cumprimento das regras de governança.

Fluxo de aprovação de Metadados

VII. Ferramentas para Gestão de dados\Metadados

Durante a nossa pesquisa pudemos avaliar algumas ferramentas que fazem a gestão de dados e facilitam muito esse trabalho:

  1. Informatica Enterprise Data Catalog.
  2. Apache Atlas (horton works).
  3. IBM Infosphere Information governance catalog.
  4. Navigator (Cloudera).
  5. ZDP Data Catalog Plus (Zaloni).

VIII. Considerações finais

Com este trabalho foi possível explorar os diversos métodos, processos e ferramentas que auxiliam a governança de metadados.

Foi possível exemplificar em um cenário hipoteticamente real que se faz necessário a definição clara da governança de metadados para que a produtividade de bons profissionais seja aproveitada ao máximo.

Referencias

[1] Rêgo, Bergson Lopes, Gestão e governança de daddos: Promovendo os dados como ativo de valor nas empresas, Rio de Janeiro, Brasport, 2013.

[2] Niso Press, Understanding metadata, http://www.niso.org, acesso em 10/06/2018.

[3] Gerador de personas, https://geradordepersonas.com.br, acesso em 10/06/2018.

[4] Ledo, Rafael. Taxonomia e Metadados. 2014. (9m11s). Disponível em: <https:// https://www.youtube.com/watch?v=JTKC9wvcysI>. Acesso em: 10/06/2018.

[5] Dama International Webinar, 10 Keys to word-class metadata management Disponível em: <https://youtu.be/7ALBAV_XKFY> Acesso em: 10/06/2018.

[6] Gloval Data Store LLC, 2017. (30:34s). Disponivel em: <https://www.youtube.com/watch?v=oAbHuJJTI5Y&feature=youtu.be> Acesso em: 10/06/2018.

[7] Zaloni, ZDP Data Plataform, 2018. Disponivel em: <https://www.zaloni.com/> Acesso em 15/06/2018.

[8] Rajeev Priyardashi, How to kick-off a Data Governance Project using IBM Information Governance Catalog, 2018. Disponivel em: <https://www.youtube.com/watch?v=hdL46oRU8n4> Acesso em 10/06/2018.

[9] Informatica, Data Catalog, 2018. Disponivel em <https://www.informatica.com/products/big-data/enterprise-data-catalog.html#fbid=yK-fl3A5U8x> Acesso em 15/06/2018.

[10] Apache Atlas, 2018. Disponivel em: <https://atlas.apache.org/> Acesso em 15/06/2018.

[11] Cloudera Navigator, 2018. Disponivel em: <https://www.cloudera.com/products/product-components/cloudera-navigator.html> Acesso em 10/06/2018.

[12] IBM, Infosphere Information Governance Catalog, 2018. Disponivel em: <https://www.ibm.com/br-pt/marketplace/information-governance-catalog> Acesso em 10/06/2018.

Ensina.AI

Tudo sobre Inteligência Artificial em Português

John Costa

Written by

Data Engineer | hadoop ecosystem

Ensina.AI

Ensina.AI

Tudo sobre Inteligência Artificial em Português