Minhas Impressões do AWS Lake Formation

Alexandre Lopes
Data Hackers
Published in
4 min readSep 12, 2020

Serviço da Amazon que promete facilitar a vida do engenheiro de dados para criar um data lake

Indian Arm — Photo By: Alexandre Lopes

Visão Geral

De acordo com a Amazon, AWS Lake Formation é um serviço que torna mais simples de se configurar um data lake seguro em dias, de fato este serviço lançado em 2018 pela Amazon tornou a vida do engenheiros de dados muito mais simples, neste artigo irei dar uma visão geral sobre o AWS Lake formation e compartilhar minhas experiências usando esta ferramenta.

Qual o Problema Lake Formation Resolve?

O trabalho de se configurar um data lake em nuvem envolve uma infinidade de processos em sua essência um data lake pode ser definido como uma camada de storage escalável onde os dados são armazenados, contudo para se extrair valor dos dados o data lake na prática necessita de um ecossistema de plataformas que irá processar, gerenciar e consumir os dados existe um grande esforço durante a implementação de um data lake para definir como todas estas ferramentas e processos diferentes irão interagir e trabalhar em conjunto, devido a sua grande flexibilidade soluções de data lake podem ser bastante complexas e exigindo conhecimento de um amplo espectro de serviços de dados.

O Que Há de Novo?

A minha pessoal empolgação quando soube sobre o lançamento do AWS Lake Formation, é porque ele é um tentativa de definição de uma stack de serviços básica dentro do AWS para que você inicie seu projeto de data lake, que até então embora grande parte desses serviços já estivessem disponíveis, a decisão ficava ao cargo do arquiteto de usar ou não determinados serviços, além disso usando o Lake Formation a integração entre os serviços da AWS é melhorada o que te permite definir regras de acesso aos dados em um lugar, e dissipá-las transparentemente nos serviços do AWS, outras características importantes do Lake Formation é a de auxiliar no processo de carga de dados no data lake, segurança e catálogo de dados.

Minhas Impressões

Tendo trabalhado em alguns projetos de data lake eu confesso que que me surpreendi bastante com AWS Lake Formation ele oferece sem dúvida um conjunto de serviços básicos para se montar um data lake.

Em apenas alguns passos é possível carregar o sua base dados e rapidamente ter sua fonte de dados ingeridas pelo data lake, com o uso da ferramenta “Blueprint” você pode carregar os seus dados em batches ou configurar para que ocorra uma carga periódica da sua base de dados, depois disso você precisa apenas gerenciar as permissões das suas tabelas e o seu data lake está pronto para uso!
Grande parte dos cenários básicos onde você precisa carregar dados do banco de dados para o data lake já são cobertos e facilmente resolvidos.

Nem Tudo é Perfeito

Fácil de usar e com uma interface bastante intuitiva o Lake Formation é uma mão na roda! Contudo existem é claro alguns pontos negativos que você deve ficar de olho:

  • Não existe no serviço de blueprint uma opção que te permita configurar quantas conexões e o nível de paralelismo da carga de dados do banco de dados para o data lake.
  • O serviço de carga de dados blueprint não permite que você filtre os dados da tabela a serem carregados usando uma cláusula “where”
  • Outro ponto é que caso esteja usando as permissões de usuários avançados como acessos apenas as colunas de tabelas e etc… o mesmo apenas se aplica ao produtos AWS caso precise utilizar algum outro produto externo fora da stack de serviços AWS você possivelmente acabará perdendo este nível de permissão mais granular
  • Apesar ser possível fazer operações de carga de dados simples para implementações mais complexas você definitivamente irá ter que utilizar de scripts do Glue ou uma outra ferramenta para sua carga de dados

Conclusão

Confesso que quando comecei os testes do AWS Lake Formation estava um pouco desacreditado com o valor que este serviço iria prover, contudo me surpreendi bastante com todas as caraterísticas e com a facilidade para se iniciar as funções mais básicas de carga de dados, se você já trabalha com engenharia de dados a algum talvez já tenha aquele conjunto de scripts que consiga fazer o mesmo, contudo se você está começando um projeto de data lake eu definitivamente recomendo o uso do serviço mesmo que você ainda tenha que lidar com grande parte dos detalhes de implementação o Lake Formation é um bom ínicio principalmente para projetos menores de data lake que precisam de poucas customizações e trabalham com formatos de dados tabulares.

Se você leu até aqui muito obrigado não deixe de clicar nas palminhas e deixar comentários em caso de dúvidas ou sugestões.

Te vejo no próximo artigo grande abraço!

Referências:

  1. Lake Formation AWS

--

--