BigData ainda não é tratado como conceito e sim como produto de prateleira

Photo by Franki Chamaki on Unsplash

Na grande maioria das empresas em que passei, tive a “sorte” de entrar antes da implantação do BigData. E em quase todas uma estrutura megalomaníaca é montada para tratar dados que serão ignorados por alguém que usa planilhas do Excel para provar seu ponto.

Não que o Excel não tenha seu valor. Aliás, para uma parte considerável das empresas, a maturidade de dados que elas possuem, o Excel faz um ótimo trabalho. E mais barato. Porém não é essa perspectiva que analiso e sim o montante de dinheiro envolvido em BigData, Data Lakes, e outros conceitos sem se gastar tempo para entender de fato o que são e como eles podem ajudar a empresa. BigData é algo que as empresas entendem que precisam ter, estão atrasadas e querem fazer isso na pressa. E como sempre, na pressa atropelamos coisas importantes.

O BigData veio, já há muito tempo, para mudar o jogo. Passamos a ter decisões “data-driven” ao invés de “gut feeling” ou achismos e convicções sem embasamento de dados. E interpretar dados e principalmente correlacionar dados não é uma tarefa trivial. Requer gente treinada. Não só TI. Principalmente de negócios. E aí o que fazem? Contratam um cientista de dados para mastigar a complexidade e fazer o trabalho de “pensar” para resolver o problema.

Enquanto esse tipo de mentalidade prevalecer, vamos continuar usando 0,01% do potencial do conceito. Não adianta terceirizar a parte “analítica” ou estatística do seu negócio contratando um ou um time de cientistas de dados. Mais do que usar, é necessário entender de fato o que está acontecendo, os dados que estão recebendo, e as variáveis que estão sendo relacionadas.

Vamos pegar o Google Analytics, por exemplo. É uma ferramenta que na versão gratuita fornece indicadores bons o suficiente para se tomar decisões em relação à sua página. Mas você precisa entender o que está “mastigado” ali. Não só a interpretação mas entender minimamente alguns conceitos estatísticos para embasar a sua decisão. Será que aquela amostragem é suficiente ou representa a população que acessa o site para que essa ação dê resultado? Enfim, esse é só um micro exemplo. No dia-a-dia, estamos falando de milhões de reais gasto em estruturas na nuvem que vão processar dados de bases réplicas que estão em D-1 (!!!).

Por fim, a falta de informação sobre o tema não pode ser culpada. Em qualquer lugar que você procure informação sobre esses conceitos, ela está lá. Boa parte gratuita. Sendo assim, cabe a todos procurar essas fontes e entender o conceito. Apesar de não ser um especialista, recomendo que quem quer minimamente se preparar para esse assunto comece estudando estatística, conceitos básicos de banco de dados e matemática. São ótimos caminhos iniciais.

Bem como, entender como a pergunta “você tem algum dado que suporte essa ideia (ou afirmação)?” pode revelar muito mais do que se imagina.


Originalmente publicado no LinkedIn em 17 de julho de 2018.