#mari talks 4: como organizar dados? parte um

Mari Martignago
6 min readDec 28, 2023

--

nesta edição, a primeira de uma série de três textos, mergulharei fundo na estrutura essencial para o gerenciamento eficiente de informações: data lake, um reservatório gigantesco que armazena volumes massivos de dados não estruturados em seu formato original; data warehouse, um mecanismo central que permite a análise de dados estruturados; e o revolucionário data lakehouse, que visa unificar o melhor dos dois mundos, oferecendo um repositório único para diversos tipos de dados.

Introdução

Há alguns anos, as empresas se viam inundadas por uma abundância de informações de diferentes fontes: relatórios de vendas, feedbacks de clientes, dados de redes sociais e muito mais. Era um quebra-cabeça massivo, onde cada peça representava um valioso insight para impulsionar o crescimento. Contudo, esses dados estavam dispersos, desorganizados e, muitas vezes, inacessíveis. Foi então que decidiram construir algo grandioso: um Data Lake. Imaginem um imenso reservatório, capaz de conter todos os tipos de dados, estruturados e não estruturados, em seu formato original.

Vamos mergulhar neste lago?

Definição e conceito básico de um data lake

No vasto universo da gestão de dados, emerge um fato incontestável: existem inúmeras formas de organizar e estruturar informações. Desde métodos tradicionais até abordagens inovadoras, as possibilidades são amplas e adaptáveis às necessidades específicas de cada organização. A organização dos dados pode ser feita de maneiras diversas, utilizando desde estruturas consolidadas como os Data Warehouses até abordagens mais recentes como os Data Lakes e os híbridos Data Lakehouses. Cada uma dessas metodologias possui suas próprias características e vantagens, permitindo às empresas explorar um vasto oceano de informações para impulsionar suas estratégias e tomadas de decisão.

O Data Lake, que armazena grandes volumes de dados não estruturados em seu formato original; o Data Warehouse, que centraliza dados estruturados para análise; e Data Lakehouse, que busca combinar os pontos fortes de ambos, oferecendo um repositório unificado para diferentes tipos de dados (Monte Carlo Data, 2023)

Um data lake é um grande repositório que armazena grandes volumes de dados não estruturados em seu formato original. Isso significa que você pode usar os dados no formato em que estão, sem ter que reformatá-los ou preocupar-se com a sua estrutura.

O armazenamento em um data lake pode ser feito na nuvem ou em local físico, permitindo aos usuários adicionar, manipular e extrair dados de qualquer fonte, sem a necessidade de realizar quaisquer mudanças na estrutura do banco de dados.

O nome data lake foi cunhado por James Dixon, em 2010, em seu blog pessoal.

Segundo Dixon (2010): Se você pensar em um data warehouse como uma água engarrafada — limpa, empacotada e estruturada, fácil para consumo — o data lake é um imenso corpo de água num estado mais natural. O conteúdo do data lake flue para dentro do mesmo através das fontes que alimentam o lake, e vários usuários do lake podem vir examinar, mergulhar ou pegar amostras.

Arquitetura do Datalake

Um Datalake é composto por diversos elementos que trabalham juntos para armazenar, processar e gerenciar grandes volumes de dados de maneira eficiente. Alguns dos componentes principais de um Datalake incluem:

Armazenamento de dados:

  • Sistemas de Arquivos Distribuídos: componentes de armazenamento distribuído, como Hadoop Distributed File System (HDFS), Amazon S3, Azure Data Lake Storage (ADLS), entre outros. São comumente usados para armazenar os dados brutos de maneira econômica e escalável.

Camadas de processamento:

  • Camada de ingestão de dados: responsável por receber e carregar os dados no datalake. Pode incluir ferramentas para capturar e movimentar dados de várias fontes para o ambiente do datalake.
  • Camada de processamento de dados: aqui, os dados são processados e transformados conforme necessário para análises posteriores. Frameworks como Apache Spark, Apache Flink, ou serviços de processamento na nuvem (como Azure Databricks, AWS Glue) são utilizados para processamento distribuído e transformação de dados em grande escala.
  • Camada de serviços e ferramentas: inclui uma variedade de ferramentas para consulta, análise, governança, e segurança dos dados. Isso pode envolver soluções de Business Intelligence, ferramentas de visualização (como Tableau, Power BI), serviços de catalogação de dados, e soluções de governança de dados.

Ferramentas de monitoramento e gerenciamento

Existem diversas ferramentas disponíveis para monitoramento e logging em um ambiente de Datalake. Essas ferramentas são fundamentais para garantir o desempenho, a integridade dos dados e identificar problemas potenciais. Aqui estão alguns exemplos de ferramentas comumente usadas:

  • Ferramentas de Monitoramento e Logging: são utilizadas para monitorar o desempenho do sistema, identificar problemas e garantir a integridade dos dados.

Apache NiFi:

  • Uma ferramenta de fluxo de dados em tempo real que pode ser usada para coletar, mover e processar dados entre sistemas diversos. Oferece recursos de monitoramento de fluxo de dados e permite a configuração de alertas.

Grafana:

  • Uma plataforma de análise e visualização de métricas. Pode ser integrada com diferentes fontes de dados, incluindo Prometheus, para criar dashboards personalizados e visualizações de dados.

ELK Stack (Elasticsearch, Logstash, Kibana):

  • Uma combinação de ferramentas que pode ser utilizada para monitoramento e logging. O Elasticsearch é um mecanismo de busca e análise de dados, o Logstash é responsável pela coleta e processamento de logs, enquanto o Kibana oferece recursos de visualização e análise de dados.

Azure Monitor:

  • Uma ferramenta de monitoramento da Microsoft Azure que fornece insights sobre o desempenho e a integridade dos recursos na nuvem, permitindo a coleta e a análise de dados de diferentes serviços Azure, incluindo Azure Data Lake Storage.

Ferramentas de Orquestração:

Automatizam e gerenciam fluxos de trabalho, agendamento de tarefas e processos de ingestão, transformação e análise de dados.

Essas ferramentas de orquestração oferecem recursos poderosos para automatizar e coordenar processos complexos em um ambiente de Datalake, permitindo a execução e o gerenciamento eficientes de fluxos de trabalho de dados.

Apache Airflow:

  • Uma plataforma de orquestração de código aberto, muito utilizada para agendar, monitorar e gerenciar fluxos de trabalho de dados complexos. Permite criar DAGs (Directed Acyclic Graphs) para definir a lógica de execução das tarefas.

Microsoft Azure Data Factory:

  • Um serviço de integração de dados totalmente gerenciado na nuvem da Microsoft Azure. Permite criar, agendar e orquestrar fluxos de trabalho de dados em escala, incluindo atividades de ingestão, transformação e movimentação de dados.

Google Cloud Composer:

  • Uma plataforma de orquestração de fluxo de trabalho totalmente gerenciada na nuvem do Google Cloud Platform (GCP). Baseado no Apache Airflow, permite criar, agendar e gerenciar fluxos de trabalho de dados de maneira eficiente.

Benefícios e vantagens de um data lake

Um dos principais benefícios que um Datalake oferece para empresas e organizações é a capacidade de centralizar e armazenar uma grande variedade de dados, independentemente de sua estrutura ou origem.

Isso permite a consolidação de dados brutos de fontes diversas, como transações de negócios, dados de sensores, interações de usuários e até mesmo dados não estruturados, como vídeos e imagens.

A flexibilidade e escalabilidade são características distintivas do Data lake que e é projetado para lidar com a crescente quantidade e variedade de dados de maneira mais dinâmica. Sua arquitetura permite que as organizações ampliem sua capacidade de armazenamento e processamento conforme necessário, sem a necessidade de reestruturação ou reformulação significativa.

Isso significa que, à medida que os requisitos de dados crescem, o Data lake pode facilmente expandir-se para acomodar o aumento de informações, garantindo que as empresas não fiquem restritas por limitações de capacidade e possam se adaptar às demandas em constante evolução do mercado.

Outro benefício notável do Data lake é a sua capacidade de processamento e análise de grandes volumes de dados. Por oferecer uma infraestrutura que suporta tecnologias de processamento distribuído, como o Hadoop e o Apache Spark, o Datalake permite a execução de análises sofisticadas em conjuntos massivos de dados.

Isso viabiliza a realização de análises avançadas, como machine learning, análise preditiva e mineração de dados, contribuindo para insights mais profundos e precisos.

Além disso, o Data lake não só suporta dados estruturados, mas também dados semiestruturados e não estruturados. Essa capacidade de lidar com diferentes tipos de dados e formatos, como logs de servidores, documentos JSON ou XML, oferece às organizações a flexibilidade de trabalhar com uma variedade mais ampla de informações, explorando seu potencial para inovação e tomada de decisões informadas.

Obrigada pela leitura.

Até 2024!

--

--