5 desafios para o projeto de Big Data da sua empresa

Questões a se considerar na etapa de planejamento

DataLakers Tecnologia
Blog DataLakers
4 min readApr 28, 2021

--

Panumas Nikhomkhai, via Pexels

A implementação de uma operação de dados eficiente é prioridade na maior parte das empresas atualmente, já que cultura e tomada de decisão data-driven deixaram de ser diferenciais de negócio e passaram a ser padrão da indústria.

As empresas precisam atentar aos seus dados se não quiserem ficar para trás, isso é fato.

Contudo, com o desenvolvimento constante dos negócios e surgimento acelerado de novas demandas, logo percebe-se que a tarefa de operacionalizar um fluxo de dados não é um projeto pontual, mas sim um esforço contínuo de adequação para que se gere sempre os melhores resultados.

Nesse processo, é normal que algumas situações acabem surgindo e possivelmente atrasando o projeto de maneira recorrente. Por esse motivo, vale atentar especialmente a elas na etapa de planejamento, ou sempre que a pipeline for revisitada (idealmente, com frequência).

Mesmo sendo um assunto extenso, e não tendo a pretensão de esgotá-lo neste artigo, abaixo listamos 5 dos desafios que as empresas enfrentam com frequência nas implementações de projetos de Big Data:

1. Lidar com a escala

É de se esperar que um dos principais problemas de trabalhar com Big Data seja lidar com o volume grande e crescente de dados. Quanto maior o porte do negócio, maior é o fluxo de dados gerados, coletados e armazenados.

Alguns setores, como o de comércio eletrônico, por exemplo, vem tendo crescimento exponencial com o cenário criado pela pandemia, e este tipo de expansão gera uma enxurrada desproporcional de novos dados.

Uma dos principais recursos para contornar esse problema são as ferramentas de arquitetura oferecidas por grandes servidores de nuvem, que gerenciam a infraestrutura e permitem seu crescimento ou redução automaticamente, conforme a demanda percebida.

2. Integrar e sincronizar diferentes fontes de dados

Hoje quase tudo é uma fonte de dados, principalmente no ambiente digital. Sistemas de negócio, compra e venda, interações no sites, engajamentos em redes sociais, aplicativos proprietários… todos geram dados que devem ser coletados e manuseados para que, a partir deles, gerem-se cruzamentos e conclusões que impactem positivamente a empresa.

Porém, diferentes fontes de dados significam coletas provenientes de diversos pontos, resultando em variados conectores ou APIs. É essencial garantir que isso não gere conflitos e que a coleta e ingestão possa fluir do mesmo jeito.

Um jeito de atacar o problema poderia ser, por um lado, apostar em utilizar uma tecnologia unificada ao longo do pipeline, que tende a reduzir incompatibilidades; e por outro, soluções open source, que são mais maleáveis, e permitem adaptação aos cenários específicos que a organização se encontrar.

3. Validar os dados

Garantir que os dados sejam coerentes, e não contraditórios ou conflitantes, é outro grande desafio. Quando temos diversos sistemas alimentando nossa pipeline, podem surgir divergências: por exemplo, seu sistema de e-commerce registra um determinado número de vendas semanais, mas o sistema de ERP registra um número de vendas ligeiramente diferente para o mesmo período.

É preciso que essa discrepância seja identificada, justificada e corrigida— e acima disso, entenda-se qual é o valor correto.

A governança de dados é um conjunto de práticas que facilita esse controle mais apurado, e com o emprego de profissionais qualificados e ferramentas apropriadas pode diminuir muito as divergências e contribuir diretamente para um incremento na qualidade dos dados.

4. Definir o ritmo

Um ponto que precisa estar claro desde o pontapé inicial do projeto — pois impacta diretamente em decisões de arquitetura — é a respeito da velocidade de disponibilização desses dados.

Quantos tempo depois de gerados eles serão utilizados em análises?

Alimentam relatórios diários? Semanais?

Ou constituem um monitoramento em tempo real?

Essas perguntas são importantes, já que definem se um pipeline precisará ser em streaming ou batch, qual a frequência das cargas e quais tecnologias devem ser empregadas.

Tendo-se o alinhamento correto quanto à agilidade demandada no projeto, é mais garantido que ele desempenhará conforme o esperado e empregando o melhor custo benefício.

5. Contornar a escassez de profissionais qualificados

Ter os dados é uma coisa, gerar valor é outra.

Seja na área de Analytics e BI ou engenharia e arquitetura, a verdade é que profissionais qualificados são escassos e muito disputados no mercado de dados.

Essa alta competitividade gera um grande esforço por partes das empresas para atrair e reter esses talentos, com salários altos e listas extensas de benefícios. Ainda assim, há dificuldade na hora de preencher as vagas.

Para lidar com isso, as empresas podem investir na especialização dos funcionários da casa, conforme a necessidade, o que ajuda a criar uma cultura interna de valorização e um time de dados alinhado ao DNA da organização.

Por outro lado, é possível recorrer a uma consultoria especializada. Assim pode-se atender necessidades bastante específicas sem a necessidade de construir um time interno, e ainda usufruindo da experiência de mercado e insights técnicos dessa parceira.

Sobre a DataLakers

Na DataLakers, nós habilitamos empresas públicas e privadas a extraírem o máximo de seus dados, oferecendo serviços de infraestrutura e gestão de Big Data em nuvem — de forma eficiente e escalável — através das principais plataformas do mercado (GCP, Cloudera, AWS, e mais).

A DataLakers Tecnologia faz parte do iMaps Data Group, grupo que há mais de 10 anos acredita na soma de #Data, #People e #Analytics para a solução de problemas reais.

Saiba mais acessando www.datalakers.com.br.

--

--

DataLakers Tecnologia
Blog DataLakers

As melhores soluções para seu projeto de Big Data. A DataLakers Tecnologia é uma empresa especializada em automatização de pipeline e governança de dados.