A realidade por trás do Data Science e dos Unicórnios

Gabriel Lages
Data Hackers
Published in
10 min readMar 25, 2018

Você já ouviu falar em Data Science?

Data Science, é um termo que está em alta, e geralmente vem acompanhado dos termos Machine Learning, Deep Learning e até mesmo inteligência artificial.

Mas… Antes de mais nada é muito importante compreendermos o que é Data Science, e ainda mais importante, entender como o Data Science pode ser utilizado no dia a dia para gerar mais valor aos negócios.

Segundo a própria Wikipédia Data Science ou ciência de dados é uma área interdisciplinar voltada para o estudo e a análise de dados, estruturados ou não, que visa a extração de conhecimento ou insigths para possíveis tomadas de decisão.

Como você pode ver no gráfico de tendências de busca, o termo “Data Science” vem sendo cada vez mais buscado por pessoas e empresas desde 2013, e muitas vezes é descrito como a profissão do futuro ou como a profissão mais sexy e bem remunerada dos novos tempo.

Mas afinal… O que de fato é Data Science???

De maneira bem resumida, para que uma empresa consiga obter insights preciosos através dos dados, será necessário reunir 3 áreas do conhecimento distintas:

Computação e Sistemas de Informação:

Na era do Big Data e computação em nuvem, onde a tendência é que toda e qualquer informação esteja armazenada de alguma forma na internet, o conhecimento de desenvolvimento é essencial não só para a extração dos dados, mas para realizar toda a engenharia necessária para garantir que esses dados sejam organizados e acessíveis. Além disso o conhecimento em engenharia de dados é indispensável para a construção de algoritmos para a análise de informações complexas e automatização de todos os processos envolvidos.

Estatística e Matemática:

Tomar decisões confiando apenas no feeling e experiência dos gestores, não é algo que funciona tão bem quanto no passado devido ao ambiente de competitividade e volume de informações que temos hoje. Se antigamente uma empresa poderia confiar que as decisões estratégicas fossem tomadas apenas por um baixo número de pessoas, a quantidade de decisões que precisam ser tomadas e a velocidade com a que essas decisões precisam ser tomadas não se encaixa mais nesse modelo. Diante disso as empresas começaram a utilizar da metodologia científica, através do uso de modelos matemáticos e estatísticos, para aumentar a assertividade das decisões tomadas, reduzindo desperdícios e a escolha de estratégias erradas.

Negócios:

Mesmo que a empresa tenha fortes conhecimentos em engenharia de dados e estatística, uma decisão sempre estará fortemente relacionada aos negócios em que a empresa esteja inserida. Sendo assim o conhecimento de mercado, legislação, e dos demais desafios internos e externos da empresa serão fundamentais para o levantamento das questões corretas a serem exploradas e auxiliará na tomada de decisão final. Este ponto é o que deixa a ciência de dados uma área multidisciplinar, pois será responsável por unir os conhecimentos em engenharia de dados e estatística aos conhecimentos específicos de negócios o que permite que um cientista de dados se especialize em diferentes áreas como saúde, direito, negócios, finanças, engenharia, operações, atendimento ao cliente entre inúmeras outras.

e

E o que um Data Scientist faz de fato?

Existem diversos processos e frameworks sugeridos para a atuação de um Cientista de Dados. Eu particularmente acredito que este processo do livro “Doing Data Science” de Cathy O’Neil e Rachel Schutt, descreve muito bem os passos envolvidos em um ciclo de análise de dados.

  1. Definição do problema e levantamento de perguntas a serem respondidas
  2. Planejamento do processo de Data Science
  3. Coleta de dados
  4. Processamento e limpeza dos dados
  5. Armazenamento dos dados
  6. Análise de dados
  7. Construção e validação de algoritmos e modelos
  8. Data Visualization
  9. Disseminação da informação

E quais os Skills necessários para um Data Scientist?

Se pensarmos em todas as 9 etapas do processo de data science descrito acima, é possível imaginar em inúmeras habilidades e técnicas que esse profissional vai precisar ter. Desde conhecimentos sólidos em computação, modelagem estatística, gestão da informação até habilidades que envolvem uma comunicação persuasiva, negociação, design, organização de ideias etc.

Várias pessoas tentaram definir todos os conhecimentos necessários para se tornar um Data Scientist completo, e o mais próximo que eu já vi foi essa imagem:

Essa imagem por sinal que lembra mais um “Jogo da Vida” com trilhas separadas pelos mais diversos temas (Fundamentos, Estatística, Programação, Machine Learning, Análise de Textos/NLP, Visualização de dados, Big Data, Coleta e importação de dados, Big Data etc), e uma estrela com 100% ao final de cada trilha.

Teorias como essas, associadas com o fato da profissão de Data Scientist estarem cada vez mais em alta, geraram diversas reportagens sobre a carreira de cientista de dados e seu papel nas empresas. Como era cada vez mais difícil encontrar um profissional especializado em todas essas habilidades o Data Scientist passou a ser visto como um Unicórnio.

Unicórnios não existem. Entenda como funcionam os times de Data Science.

Pensando em todas as skills mostradas anteriormente é bem provável que um unicórnio não exista, e mesmo que exista, custará tão caro e será tão difícil de encontrar que não faz sentido que as empresas realmente esperem que vão conseguir formar equipes compostas apenas por unicórnios que tenham o conhecimento adequado em cada uma das habilidades de negócios, estatística e engenharia de dados necessárias para o processo de Data Science.

No meu ponto de vista seria o mesmo que formar um time de futebol em que todos os jogadores tivessem habilidades suficientes para jogar em todas as posições, um atacante que fosse um bom goleiro e que atuaria como zagueiro com a mesma excelência. Se pensarmos em um atleta como o Allen Iverson (lenda da NBA) que durante a sua jornada universitária chegou a ser ídolo tanto no basquete quanto no futebol americano e precisou escolher qual esporte seguir profissionalmente, pode até ser que os unicórnios existam, mas devem ser raros!

Mas… Se ao invés de investir todos os recursos financeiros e uma grande quantidade de tempo na busca por Data Scientists unicórnios, as empresas tivessem outra alternativa?

Foi mais ou menos aí que surgiram os times de Data Science…

Se sabemos todos os conhecimentos necessários para que um processo de Data Science funcione da maneira adequada, nada mais coerente que construir uma equipe formada por pessoas que combinem todos esses conhecimentos.

Mas que tipos de profissionais podem formar uma equipe de Data Science?

Por ser uma área do conhecimento muito abrangente e que relativamente surgiu num período muito recente, acredito que ainda não exista um consenso em relação a quais os profissionais certos para a construção do time. Mas de tudo que eu já li sobre o assunto e pela prática que vejo nas empresas os profissionais mais comuns são:

  • Analistas de Dados

Analistas de dados carregam uma bagagem de conhecimentos relacionados a negócios. Muitas vezes tem formação em estatística, matemática, economia, administração, engenharia, ou tem uma formação em computação (mas com a carreira voltada para a área de BI ou analista de negócios), apesar de que não existe nenhuma regra nesse ponto. Se estamos falando de um laboratório clínico, o analista de dados possivelmente vai precisar de ter sólidos conhecimentos em química ou biologia e consequentemente uma formação e carreira diferente das citadas acima. O mais importante é que essa pessoa desenvolva um forte pensamento analítico, para conseguir levantar as perguntas certas e desviar dos fatores de confusão que surgem durante a análise e modelagem dos dados. É essa pessoa que normalmente estará mais próxima do cliente final e terá o desafio de disseminar os insights resultantes da análise.

  • Engenheiros de Dados

Novamente não existe um consenso em relação ao perfil do engenheiro de dados. Se sua empresa utiliza apenas dados estruturados que já estão todos concentrados em uma só base de dados (ou um data warehouse a pleno vapor) pode ser que o papel de engenheiro de dados já está sendo realizado por outras partes da sua equipe ou por empresas parceiras, mas em 99% dos casos que já vi essa não é a realidade. Geralmente as empresas possuem uma grande quantidade de informação desorganizada, descentralizada e muitas vezes desestruturadas, nestes casos sem uma boa engenhenharia de dados será quase impossível obter uma análise de dados que gere real valor para o negócio. Engenheiros de dados normalmente possuem sólidos conhecimentos em bancos de dados (SQL e NoSQL), integrações entre sistemas, computação em nuvem, processamento paralelo, ETL’s, datawarehouses, datalakes, data streaming etc. Justamente por isso é essencial que tenham um background na área de técnologia, e uma formação em ciências da computação e sistemas de informação (lembrando que ter diploma nessas áreas não é uma exigência, conheço excelentes engenheiros de dados que optaram por não concluir a graduação ou que são autodidatas desde o início da carreira).

  • Especialistas em visualização de dados

Os profissionais focados na visualização de dados, nem sempre são lembrados nos posts e livros que abordam a formação de equipes de Data Science, mas eu particularmente acredito que a atuação deles é essencial em todo esse processo. Quando o processo de tomada de decisão envolve várias pessoas, a comunicação e a persuasão torna-se fundamental. Não adianta o analista de dados estudar os modelos e identificar pontos críticos se ele não for capaz de demonstrar isso para os outros envolvidos e convencê-los a realizar ações em cima dessas descobertas… E é exatamente aí que entra o papel do especialista em visualização de dados. Por incrível que pareça, a mente humana não é tão assertiva na tomada de decisões quanto muita gente pensa. Na verdade estudos mostram que grande parte das decisões tomadas utilizando a intuição acabam sendo decisões erradas, e mesmo analisando os dados é normal que muita gente tome decisões erradas devido aos vieses cognitivos, que são as tendências de pensar de certas maneiras que podem levar a desvios sistemáticos de lógica e a decisões irracionais, por sinal a psicologia já mapeou centenas de vieses cognitivos da mente humana.

A visualização de dados, além de ajudar a desviar desses vieses, ainda pode tornar a equipe muito mais produtiva, pois muitos problemas complexos de serem resolvidos com cálculos e modelos são facilmente compreendidos de maneira visual.

O especialista em visualização de dados geralmente trabalha com design, UX/UI, ou desenvolvimento frontend. Novamente o perfil desse profissional vai depender muito da forma de trabalho da empresa e dos recursos disponíveis. Se o objetivo for criar um produto baseado em dados, conhecimentos em Javascript, CSS, HTML e manipulação de libs como D3.js podem ajudar muito, mas em equipes focadas apenas em analisar os dados internamente e que já possuem alguma ferramenta de BI, o designer poderá contribuir mais.

Mas… e o Machine Learning, Deep Learning e outros pontos?

Sem querer levantar nenhuma polêmica, vejo que tanto o machine learning quanto deep learning são ferramentas indispensáveis para análises cada vez mais complexas. Porém, acredito que esse conhecimento serve muito mais como uma ferramenta para que a equipe solucione problemas do que como uma especialidade, ou função em si. É claro que em alguns modelos de negócios, será essencial uma equipe formada apenas por engenheiros de machine learning, mas na maioria dos outros casos o machine learning será uma ferramenta para que os engenheiros de dados, analistas de dados e especialistas em visualização de dados façam descobertas complexas, validem hipóteses e principalmente respondam as perguntas da maneira certa!

Ok, e agora por onde começar?

O Data Science está criando muitas oportunidades, não só para quem deseja se tornar um cientista de dados, mas para empresas e áreas correlatas que podem se beneficiar desse conjunto de conhecimentos. Minha dica final para quem quer entrar mais a fundo na área é que a pessoa deve estar sempre alinhada com os seus objetivos. Não tente se tornar um “Unicórnio” de cara, dê tempo ao tempo, comece se especializando na parte do Data Science que você tenha mais interesse e facilidade aos poucos você vai começar a adquirir outros conhecimentos para ser mais produtivo. A parte boa disso tudo é que grande parte desses conhecimentos estão na web, existem vários sites e comunidades como o www.datahackers.com.br onde você poderá ter acesso a uma curadoria de conhecimento de forma 100% gratuita toda segunda em sua caixa de email. No nosso fórum forum.datahackers.com.br você poderá fazer e responder perguntas, podendo acelerar ainda mais a busca pelos seus objetivos. Além disso existem muitos cursos gratuitos e pagos na internet.

E você, o que está esperando para começar?

--

--

Gabriel Lages
Data Hackers

Data & Analytics Director at Hotmart, Co-Founder of Data Hackers.