Data Engineer — Big Data Specialist

As verdades que o mercado brasileiro -e você- precisam ouvir sobre Big Data.

Allan Sene
Data Hackers

--

A onda do momento é Big Data! Se você trabalha com TI e ainda nem ouviu esse termo ainda, deve estar uns 5 anos atrasado. A startup de sucesso surge duma “necessidade de se aplicar conceitos inovadores de Data Science no Big Data para a criação de Insights que agregam Valor aos Negócios do Cliente”. O que toda empresa da segunda década do milênio precisa para resolver seus problemas: usar o Big Data! Tudo isso é incrível, não é mesmo?!

Bem… tudo bem se você acha isso, mas antes eu preciso o esclarecer contando algumas estórias…

Tudo começou há um tempo atrás…

Tudo começou lá fora… Gigantes da tecnologia começam a construir uma estrutura tão imensa de armazenamento e processamento que decidiram fazer dinheiro também nas suas horas ociosas. A Amazon surge com a idéia de alugar seus servidores ociosos -formando uma cloud. Logo atrás vieram IBM, Microsoft e até a Google, -mesmo que tardiamente- além de outras desbravadoras mais novas nesse mercado. A queda acentuada nos preços dos componentes comuns de computadores -commodity hardware- aliados a novos paradigmas de programação concorrente, leia-se MapReduce, faz com que estas nuvens se tornem incrivelmente poderosas. Hoje seu poder é tão extremo que 90% dos dados já produzidos no mundo foram produzidos nestas plataformas somente nos últimos 2 anos.

Bonito né? … Maioria tá tudo parado… Só esperando seu dinheiro, que nem máquina de doce!

Em tecnologia, todos sabemos que tudo corre tão rápido que é preciso ser esperto para se ganhar muita grana com uma idéia… Como o mercado americano se esgota muito rápido graças à forte concorrência, essas grandes empresas começam sua fase de veloz expansão rumo ao sul do mundo, os países em desenvolvimento, e logo essa estratégia chega a cá em nossas terras.

E o que interessa mesmo, é vender…

A Mentira do Canivete Suíço

Nada melhor que uma conversa para confabular uma moral…

Olha aí gente caindo no hype…

Diferentemente do que tentam vender, Cloud Computing e o tal Big Data não são fórmulas mágicas para o sucesso. Quanto mais dados, mais serviços, mais tecnologias -muitas de altíssima complexidade- , temos também mais possibilidades de falhas, maior impacto nos erros, mais necessidade de disponibilidade e resiliência e consequentes gastos altos, tanto em horas/especialista, quanto em capacitação, operações e infra-estrutura.

O que tentam vender por aí é uma mentira! Várias instâncias EC2, rodando MapReduce e armazenando tudo no S3 não resolverão todos os seus problemas! É provável que te tragam mais dor de cabeça ainda!

Um canivete suíço, por mais perfeito que ele possa parecer, com suas diversas ferramentas as quais a maioria você nem sabe o que faz, na maioria do tempo nada mais é que um estorvo a mais no seu bolso!

Muitos dos seus problemas são resolvidos com decisões simples de arquitetura. Podem parecer chatas ou não-inovadoras, mas elas sempre funcionaram, desde o início dos tempos da computação. É bem possível que uma pequena reformulação na estrutura de seus dados armazenados no DB SQL, ou uma revisão naquele algoritmo daquela job noturna (que já tá virando semanal ¯\_(シ)_/¯) resolva seu baixo desempenho.

Refazer tudo do zero sempre é uma opção tentadora, mas é bastante arriscada.

…mesmo depois de eu dizer algumas verdades…
… o cara quer por TODAS as fichas MESMO!
No! No! NO! NO!

Mesmo opções open-source por mais sensacionais que possam ser, trazem custos altos, principalmente ao capacitar profissionais nestas ferramentas, e depois pagando os tais, que costumam ficar caríssimos com o tempo.

Os Unicórnios Fantásticos e onde habitam

Esse é o Joe, Data Scientist/Analytics/BI/Cloud Engineer que as empresas buscam

Com toda essa avalanche de desinformação, o mercado de tecnologia, que já não é muito maduro nem fora do Brasil, fica totalmente descalibrado. Na busca do canivete suíço, os diretores buscam unicórnios por aí, sonhando com um profissional 10 em 1, que só existe em contos de fadas.

Sério… Quando encontrarem, DÊEM um Prêmio TURING pra esse cara:

Que pena… não tenho “Inglês Técnico” :’(

Um Cientista de Dados não precisa dominar bancos de dados e frameworks de ETL/Streaming (Hadoop/Spark/Kafka).

Quem cuida disso é o time de Engenharia de Dados.

Os Cientistas constroem, calibram os modelos estatísticos/numéricos e criam visualizações. Costumam usar Python/R e utilizam amostras de dados, não todo o Data Lake.

Olha outro unicórnio aí…

Quem põe pra rodar em produção, de maneira eficiente computacionalmente, aplicando bons conceitos de otimização, sistemas reativos, DevOps e concorrência/paralelismo é o time de engenharia. Esse é responsável por pegar os modelos desenvolvidos pelos cientistas, reimplementá-los usando as plataformas que possibilitam análise em larga-escala e em tempo-real. Aí sim se usa Spark, Java/Scala, Kafka, Cassandra e etc…

É até incabível que se exija que um Cientista de Dados, com forte viés teórico em Estatística e Matemática, como deve ser, saiba Bancos de Dados SQL/NoSQL, Linguagens de Programação/Funcionais, Mineração de Dados e Paralelismo, conceitos amplamente ensinados na Ciência da Computação.

Do mesmo jeito que é incabível exigir dum Engenheiro de Software que saiba profundamente de Álgebra Linear, Inferência, Análise de Regressão, Deep Learning e etc…

A Busca do Pote de Ouro

Por último, uma situação implicada pelos itens anteriores que poucos discutem: A Máfia de Treinamentos/Certificados que angariam os ávidos na Busca pelo Pote de Ouro.

Quem não se lembra da época que Desenvolvimento de Software era tudo mato?? Desse lado aqui ficava o SOA, perto dos consultores Oracle e seus amigos SAP certified… Mais ali pra frente ficava o campinho dos gerentões PMI, com seus livrões de processos, com o PMBoK e seus badulaques.

Um dos membros do Clube do ABAP em seu horário de almoço

Gado não tinha não, mas rolava uma grana! Pra fazer parte desses clubinhos, meu amigo, tem que ter muito $$$. Os cursos e certificados para entrar no clã eram -e ainda são- caríssimos!

O “tal do Big Data”, como tem uma demanda quase inestimável no mercado de hoje, infelizmente, está indo pelo mesmo caminho…

Se proliferam por aí, treinamentos milagrosos de 5 dias que ensinam “tudo que você precisa saber para entrar de vez no mercado mais promissor de TI. Tudo isso por uma bagatela de R$ 5.000,00.”

Cara… sério? Em tempos de EDx, Coursera e Udacity, alguém pagar uma fortuna dessa por um curso de 5 dias, com um consultor que nunca pegou um projeto de ponta a ponta, por mais de 1 ano é cruel!

Mais que suficiente

Estamos cada vez mais próximos de um mundo com conhecimento totalmente compartilhado pela internet, cada vez mais acessível até pelas camadas mais pobres da sociedade e ainda tem gente se aproveitando da gana de aprendizado de gente esforçada! :|

Se você tá começando agora, não caia nessa! Há MUITOS recursos por aí na rede, de graça, com qualidade altíssima, que irá te colocar nos trilhos da Engenharia/Ciência de Dados. Em breve conversaremos sobre esse papo em específico

Enfim. Há ainda mais pontos a se discutir sobre o mercado de TI e como ele está se adaptando ao “boom dos dados”, mas não vamos nos delongar…

Estamos caminhando em morros muito íngrimes e não sabemos quase nada do que veremos pela frente. Por isso mesmo temos uma vantagem: conseguimos olhar para trás e ver todo o caminho que já passamos e ainda estamos percorrendo.

A Computação, por mais recente Ciência que seja, já é muito sólida e sempre resolveu muito bem seus desafios. Achar que somente o que está a nossa frente vale a pena, é inocente e imprudente, como aprendemos em outras ciências.

Se gostou, curta o texto clicando no ❤ e compartilhe! Se não gostou de qualquer coisa, comente! De qualquer forma, me siga para trocarmos mais idéias sobre essa maravilha que é o mundo de códigos e dados :)

--

--

Allan Sene
Data Hackers

CTO | Lead Data Engineer | Co-Founder of Data Hackers and Dadosfera. Loves science, code and cats ^*^