Como o Grupo Boticário usa linhagem de dados automática pra manter pipelines rodando

Gabs
Alvin Brazil
Published in
5 min readNov 22, 2022

Quem não conhece o Grupo Boticário? Sendo um dos maiores grupos de beleza do mundo, o GB é uma empresa brasileira multicanal e multimarcas presente em 15 países.

É dona das marcas O Boticário, Eudora, Quem Disse, Berenice?; BeautyBox, Multi B, Vult, Beleza na Web, O.u.i e Dr. JONES, que juntas atuam com o propósito de transformar o mundo por meio da beleza. São 14 mil colaboradores diretos, além de outras 40 mil pessoas que trabalham na rede de franquia, considerada hoje a maior franquia de beleza do mundo, com mais de 4 mil pontos de venda em 1.780 cidades brasileiras.

Mas, o que muita gente ainda não sabe é que existe uma infraestrutura gigantesca de tecnologia por trás dessa gigante. Não é à toa que, nos últimos anos, a vice-presidência de Tecnologia & Inovação passou de 200 para 2.000 pessoas, parte delas atuando diretamente com dados — área que a empresa vem. Também investem pesado tanto para tomar decisões acertadas sobre os rumos da empresa quanto para oferecer melhores produtos para seus clientes.

Essa é a história de um grande desafio e como ele está sendo resolvido.

Um problema de observabilidade

Imagine uma empresa com cerca de 14 mil pessoas. Sim: 14 mil colaboradores diretos.

E fora isso, neste momento, existem diversas marcas diferentes dentro do Grupo. Todas focadas no mesmo objetivo, construir o melhor e maior ecossistema de beleza para o mundo, mas atuando em diferentes frentes

Apesar de atuarem em diversas frentes, essas unidades de negócio consomem muitos dados em comum. Dados que estão em aproximadamente 12 mil tabelas distintas separadas em categorias diferentes em um data lakehouse.

Trabalhar com essa quantidade de dados e pessoas está longe de ser uma tarefa fácil:

  • Como saber que tabelas estão sendo utilizadas e quais não estão?
  • Quem são os donos e responsáveis por certos dados?
  • O que está atualizado, e o que não está?
  • Que dados estão sendo mais utilizados e necessitam de atenção extra dos analistas?

Ter um bom nível de observabilidade de dados é essencial para empresas que querem ter dados de qualidade. Decisões tomadas baseadas em dados de baixa qualidade podem ser catastróficas, além de gastar preciosas horas de engenheiros que precisam ficar diariamente executando queries manualmente para garantir que os dados estão atualizados e podem ser utilizados com confiança.

E, no fim das contas… se você não confia nos seus dados, qual o propósito deles?

Linhagem de dados ao resgate

Thiago, que entrou pro time Governança de Dados no Grupo Boticário 2021, chegou na empresa e encontrou um catálogo de dados já bem implementado. Mas ainda faltava algo: ele percebeu que, dada a quantidade de pessoas e tabelas, era muito difícil prever o impacto de mudanças no ambiente e os engenheiros passavam muito tempo apagando incêndios.

E, na cabeça do Thiago, ter a linhagem de todos esses dados é o que garantiria a qualidade que a empresa precisava.

Depois de dividir essas preocupações com o time de governança e arquitetura de dados, eles resolveram fazer uma pesquisa com as pessoas que utilizam dados no dia a dia para entender se essa era uma questão que não só ele sentia. E fazia sentido: 43% das pessoas apontaram que linhagem de dados era algo que eles viam como uma necessidade.

Foi aí que o Thiago lembrou do Lucas, um dos engenheiros da Alvin.

Eles já tinham trabalhado juntos em outra empresa, e lá usavam Databricks e AWS como provedores de cloud e Airflow para orquestração. Nessa empresa eles não tinham nenhuma linhagem de dados. Pra ter alguma coisa próxima disso, o jeito era pegar logs do Airflow a nível de tabela. Imagine a dor.

Mas ele lembrou do Lucas não por essa razão, mas sim porque sabia que ele tinha ido trabalhar em uma startup que estava desenvolvendo um produto de linhagem de dados. Disposto a não reinventar a roda, Thiago e os times de dados do Grupo Boticário, conversaram com o Lucas e pouco tempo depois começaram uma prova de conceito da Alvin dentro do Grupo Boticário.

Como o Grupo Boticario usa a Alvin

Algo imprescindível para a empresa é que a linhagem de dados seja automatizada e sempre atualizada. Afinal, imagine fazer esse trabalho manualmente: mapear a linhagem de mais de 12 mil tabelas?

Palavras do Thiago:

“Para um grupo empresarial tão grande e complexo, o principal é ter visibilidade sobre a quantidade enorme de tabelas e pessoas utilizando, e a linhagem tem um papel extremamente importante, sendo que a Alvin consegue nos prover linhagem de ponta a ponta e com seu nível de coluna, ajudando demais nisso.”

Aqui temos uma tabela que é montada a partir dos dados de onze tabelas diferentes, que depois são usados em outras dezoito:

Eu fico imaginando como era trabalhar com esses dados antes de ter essa visibilidade.

Outra funcionalidade que está contribuindo positivamente para a área de Engenharia de Dados dentro do Grupo Boticário é a de análise de impacto:

Aqui, é possível ver tudo o que vai acontecer no ambiente da empresa se uma tabela específica for dropada: que outras tabelas e colunas serão afetadas.

A Alvin é uma startup ainda em early-stage, e ter seu produto rodando dentro de uma empresa do porte do Grupo Boticário foi um privilégio em vários sentidos: tivemos feedbacks incríveis sobre o produto, que nos ajudou a criar novas funcionalidades e integrações, além de corrigir bugs e promover melhorias na usabilidade.

Quer testar a ferramenta na sua empresa? Solicite uma demo aqui.

--

--

Gabs
Alvin Brazil

Dev web no passado. Content & community manager na @alvin-br, falo sobre dados e devrel.