Implementação de Data Lake: Entrevista com Carol Ribeiro

Nastacha de Avila
Mar 9 · 6 min read

Não é nenhuma novidade que o mercado de TI vem crescendo expressivamente no mundo inteiro. No Brasil não é diferente: segundo o estudo IDC Semiannual Services Tracker 2019, da IDC (líder em inteligência de mercado, serviços de consultoria e de conferências para indústrias de Tecnologia de Informação e Comunicações), o crescimento do segmento foi de 6,1% no primeiro semestre de 2019.

Uma das forças motrizes é o processo de Transformação Digital pelo qual as empresas, não só do mercado de TI, estão passando. Neste processo as organizações utilizam a tecnologia para digitalizar processos — podendo fazer uso de automação -, para aprimorar o desempenho e agilidade de sua cadeia, bem como para gerar dados de inteligência do negócio.

Entretanto, gerar informações e insights que permitam tomar decisões mais assertivas, necessita de uma estratégia de armazenamento de dados bem estruturada. Para um melhor entendimento, temos os seguintes conceitos:

Data Warehouse

Um Data Warehouse (depósito de dados) é o local em que todos os dados digitais de uma empresa são armazenados. Como se fosse um estoque que é consultado a cada vez que alguma informação é necessária.

Neste “depósito” estão os dados de processos e operações. Informações como, por exemplo, contatos de clientes e fornecedores. Entre os benefícios de um Data Warehouse, está a facilidade de encontrar e solucionar inconsistências de dados e, como consequência, a possibilidade de tomar decisões mais assertivas.

Entretanto, Data Warehouses não são um bom modelo no caso do armazenamento de dados não estruturados, bem como tendem a ficar ultrapassados com rapidez. A solução para isso está nos Data Lakes.

Data Lake

Considerados “a fonte” para uma estratégia de Big Data. Da mesma forma como os Data Warehouses, os Data Lakes armazenam dados das empresas, porém, com um custo muito inferior e de maneira escalável.

Ao invés de ficarem ultrapassados com rapidez (desatualizados), podem sofrer um upgrade para permitir o armazenamento de dados do negócio conforme o crescimento.

Ainda que os Data Lakes não substituam infraestruturas analíticas já utilizadas pelas organizações, os mesmos podem complementá-las e torná-las mais eficientes.

____

A partir desses conceitos, é importante pensar que:

  • O não uso de Data lake pode limitar a visão e extração de dados do seu time de Data Science;
  • O Data Lake é uma estrutura complexa, mas sua implementação traz alguns benefícios, podendo viabilizar a implementação de diversas estratégias como o Machine Learning (aprendizado de máquinas com base em dados comportamentais).

O uso inteligente do Big Data será cada vez mais fundamental para apoiar as organizações em um contexto em que “os dados valem ouro”, desde que sejam armazenados e manipulados com segurança. Por conta disso, convidamos a Caroline Ribeiro, Coordenadora de BI na Akross, com 12 anos de experiência em dados e inteligência de negócios, para contar tudo o que você precisa saber sobre a implementação de Data Lake.

Caroline Ribeiro é Coordenadora de BI na Akross

1) Primeiramente, quais são os ganhos da implementação do Data Lake? Por que esse tipo de armazenamento faz sentido no caso da Akross?

O Data Lake deve ser visto como uma forma estratégica para armazenamento dos dados que servindo a toda a organização, desde a consulta de informações pela área de Negócios até dashboards e machine learning. A Akross (spinoff da Mobicare, é responsável pela a maior plataforma de gestão de serviços digitais da América Latina, com 50 milhões de assinaturas, mais de 40 empresas parceiras de conteúdo e de mídia integradas e mais de 300 serviços disponibilizados para assinatura) tem como diferencial o excelente informacional que fornece aos seus clientes e ter um Data Lake é essencial para atendê-los cada vez melhor, além de termos respostas incisivas para as perguntas de negócio.

2) Quais são as etapas do processo para implementação do Data Lake?

A primeira grande etapa é a definição da arquitetura. Definir o catálogo dos dados, quem será o orquestrador e os consumidores do Data Lake, bem como será feito o monitoramento das cargas. Tudo isso faz parte da arquitetura e exige testes e POCs para chegar ao desenho ideal. Após a etapa de definição de arquitetura, vem o mapeamento das fontes de dados, integração dos mesmos no storage escolhido para o Data Lake e formação das camadas raw, analítica e dw.

3) Sendo Data Lake uma estrutura arquitetural, dizer quanto custaria um projeto de implementação seria como saber “quanto custa microsserviços”, certo? Porém, você saberia listar quais fatores compõem o investimento, de forma a auxiliar gestores a estimarem custos?

Durante o trabalho na Akross, aprendemos que a escolha entre uma abordagem mais On Premise versus IaaS é fator primordial para o desenho da arquitetura e estimativa de custo, pois o perfil da equipe que irá implementar e manter o Data Lake é diferente em cada abordagem. On Premise requer, além de um especialista em engenharia de dados, um time técnico para operar e dar manutenção no Data Lake uma vez construído. Já com IaaS o custo de plataforma é maior, porém não requer um especialista em engenharia de dados, sendo assim, perfis mais híbridos de dados (engineering-analytics) se encaixam na implementação e manutenção, além de conhecerem o negócio, o que é um grande ganho para a organização.

4) Fazendo uma comparação de cenários: o que era feito de uma forma antes na Akross e agora é feito é outra forma?

Na Akross estamos na fase de formação das camadas do Data Lake e a diferença que já sentimos no dia a dia diz respeito ao volume de dados que conseguimos consultar analiticamente e que nos ajudam a responder várias perguntas de negócio de forma mais rápida. O objetivo é avançarmos para integrar outras fontes de dados e seguirmos para Data Science. Anteriormente, precisávamos fazer mais deduções, pois não tínhamos alguns dados importantes no banco de dados devido ao grande volume gerado diariamente. Nossas principais fontes de dados somam mais de 150 milhões de registros por dia e sem o Data Lake fica inviável trabalhar com esses dados para gerar informações relevantes para o negócio.

5) Em relação à equipe de BI, quais as diferenças entre profissional de Data Engineer e um profissional de Data Science?

O profissional de Data Engineering é responsável pela implementação e manutenção do Data Lake, tarefas que incluem criação de processos de extração e transformação de dados. Na Equipe temos perfis híbridos que também fazem processos de carga de novas fontes e formação da camada analítica e dw, além de dashboards e relatórios, são o que chamamos de perfil Analytics-Engineering. O cientista de dados atua com estatística e análises profundas que incluem Machine Learning. São perfis que se complementam e possuem grande vínculo.

É importante que haja harmonia entre esses profissionais para não se perder o timing de negócios. Fazendo uma analogia com um restaurante, é como se os profissionais de Data Science fossem os responsáveis por criar novas receitas, o profissional de Analytics as adapta e as traduz para que o profissional de Engineering as implemente, colocando-as na linha de produção e negócios com suporte de Analytics, que também consome o prato final.

Hey! Meu nome é Nastacha de Avila, sou responsável pela área de Marketing nas empresas Mobicare e Akross, com foco em Branding Awareness para recrutamento de talentos em TI. O que mais amo em trabalhar no mercado de tecnologia é poder estar sempre próxima à inovação.

A Mobicare combina os Melhores Talentos, Tecnologias de Ponta, Práticas Agile e DevOps com Capacidades Operacionais avançadas para ajudar Operadoras Telecom e grandes empresas a gerarem novas receitas e a melhorarem a experiência dos seus próprios clientes.

Se você gosta de inovar, trabalhar com tecnologia de ponta e está sempre buscando conhecimento, somos um match perfeito!

Faça parte do nosso time. 😉

mobicareofficial

Se você gosta de inovar, trabalhar com tecnologia de ponta e está sempre buscando conhecimento, somos um match perfeito! Vem trabalhar com a gente 😉 bit.ly/mobicarreiras

Nastacha de Avila

Written by

Responsável pela área de Marketing nas empresas Mobicare e Akross, com foco em Branding Awareness para recrutamento de talentos em TI. 😉

mobicareofficial

Se você gosta de inovar, trabalhar com tecnologia de ponta e está sempre buscando conhecimento, somos um match perfeito! Vem trabalhar com a gente 😉 bit.ly/mobicarreiras

More From Medium

Also tagged Data Science

Also tagged Data Science

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade