Photo by Lukas from Pexels

As cinco etapas para ter o básico bem feito em uma plataforma de dados

Bruno Machado
Tríade Digital
4 min readJun 27, 2021

--

Como estabelecer um processo para trabalhar com grandes volumes de dados

Dando continuidade ao tema da última semana, em que abordei especificamente os desafios da engenharia de dados, resolvi dar um passo atrás e nivelar o entendimento sobre as cinco etapas necessárias para se ter o básico bem feito para se trabalhar com grandes volumes de dados.

Não é novidade que o volume de dados cresce muito acima da capacidade de boa parte das organizações em analisá-los e gerar insights de negócio que se traduzam efetivamente em novos produtos ou vantagens competitivas.

Para apoiar este processo de transformação ou mesmo aceleração digital guiada por dados, proponho aos colegas de tecnologia uma revisita ao modelo de referência para arquitetura de dados proposto pelos grandes provedores de serviços de dados em nuvem.

Business intelligence empresarial — Microsoft Azure

O modelo de referência é composto por cinco elementos principais: fontes de origem de dados, serviços para ingestão de dados, capacidades distintas e flexíveis para armazenamento, ferramentas analíticas e interfaces de visualização e elaboração de relatórios.

Para se estruturar um projeto que levará a organização a uma estrutura como essa é importante ter clareza do ponto de partida. O mais comum é que se tenha, em alguma medida, uma proficiência mínima em cada um destes componentes, afinal, este é um modelo amplamente conhecido e base para as estruturas on-premises de dados, presentes em boa parte das organizações (conforme figura abaixo).

Evolução da arquitetura de dados nas organizações

O que estou propondo é uma atualização ou migração da plataforma de dados utilizando os serviços em nuvem oferecidos pelos grandes provedores, sobretudo Amazon AWS, Google Cloud e Microsoft Azure, tendo como resultados esperados a redução da complexidade técnica para operação e a redução do time to market para análise e geração de insights a partir dos dados, conforme figura abaixo.

Matriz de complexidade técnica e tempo para geração de insights a partir de dados

Dessa maneira, para desenhar a arquitetura de dados considerando os cinco componentes de referência deve-se trabalhar primeiramente na identificação das fontes internas e externas de dados (ao menos as mais recorrentes), desenhar as esteiras de ingestão de dados (ferramentas, latência, segurança), selecionar e configurar as soluções de armazenamento (considerando a origem dos dados, formatos, volume e latência), estabelecer a governança para acesso aos dados para análise (domínios de dados, performance) e por fim, as ferramentas de visualização.

Ao avançar por este processo, não espere encontrar facilmente soluções SaaS que resolvam bem as cinco etapas do processo — infelizmente não há uma solução como serviço que seja one-stop-shop em plataforma de dados.

O mais comum, neste momento, será definir um provedor público de nuvem e utilizar os serviços oferecidos diretamente por ele e acrescentar componentes terceiros oferecidos como serviço e que possuem integrações ou mesmo ofertas combinadas com o provedor em nuvem, como é o caso do Tableau, Talend ou Snowflake.

Quanto aos skills técnicos necessários em cada etapa, vale a mesma observação acerca da inexistência de soluções one-stop-shop de dados. Da mesma forma, dificilmente você encontrará um profissional capaz de executar as cinco etapas com a profundidade necessária.

Cada vez mais há um processo de especialização das funções em dados, o que requer a participação de arquitetos de dados, engenheiros de dados, cientistas de dados, analistas de banco de dados, analista de infraestrutura de cloud (SRE/DevOps) e analistas de negócio.

Ciente das etapas, das opções de solução e dos skills necessários para o projeto, é importante precificar a empreitada, algo que precisa ser muito bem feito para que os custos de sustentação não se tornem exorbitantes. Para apoiar esta etapa, recomendo o desenvolvimento de um business case para a nova plataforma de dados, considerando as reduções de custo frente à infraestrutura atual, as adequações de pessoal, contratação de serviços e projeções de receita ou ganhos de eficiência em decorrente do uso dos dados.

Nenhuma ciência de foguetes, não é mesmo? Então por que a sua empresa ainda não possui uma estrutura mínima de dados em nuvem?

Não há apenas uma resposta certa para as questões acima. A ideia é instigá-los a percorrer o caminho proposto e avaliar se há uma oportunidade concreta de intensificar o uso de dados em sua organização e como você, profissional de tecnologia, pode ser relevante neste processo.

Boa jornada de aceleração em dados!

--

--

Bruno Machado
Tríade Digital

Empreendedor Digital | Mentor na QUINTESSA — Apaixonado por tecnologia, negócios e inovação.