Começando a carreira em ciência de dados na Loft

Anna Luisa Boschiroli
Loft
Published in
6 min readJun 10, 2021
Photo by Matt Duncan on Unsplash

O início de carreira é aquele momento em que as decisões para qual área ir, quais vagas aplicar são as mais difíceis de tomar. Sem um conhecimento a fundo do mercado de trabalho da área a ser escolhida, tudo é muito obscuro e normalmente acaba se tornando experimentação. E uma das áreas que tem se falado muito é a ciência de dados, o que faz com que muitas vezes tenhamos uma visão muito fantasiosa dela. Talvez, ao imaginar cientistas de dados, venha na sua cabeça aquela pessoa que conhece tudo sobre programação e matemática, que consegue prever tudo o que quiser usando um modelo matemático avançado. Além disso, muitas vezes se tem a percepção que é uma área para poucos, que exige alta especialização, até mesmo para quem vai começar na área. Por isso, com esse artigo quero contar como realmente é o dia-a-dia de alguém que é cientista de dados, principalmente para quem tem desejo de entrar na área!

Como é o dia a dia de cientistas de dados na Loft

Como cientista de dados na Loft, eu trabalhei junto com a área de people analytics, trazendo para as pessoas dessa área insights relevantes baseados nos dados para tomada de decisão. Quando entrei, com certeza foi muito empolgante saber que o meu trabalho poderia ter um grande impacto. Mas ao mesmo tempo, eu não imaginava que o caminho de ponta a ponta na ciência de dados seria tão longo.

E por que esse caminho é tão longo? Porque, mesmo que seja possível criar um modelo preditivo em apenas duas linhas de código no python, se o objetivo é que esse modelo/análise seja bem feito, isso vai levar muito mais tempo. Lembre-se que qualquer informação útil será baseada nos dados e que o seu resultado será utilizado para tomadas de decisão importantes. Então, mais importante que ter um bom modelo, é ter dados de qualidade e confiáveis, sem falar que queremos um modelo que de fato esteja resolvendo uma dor do negócio. Muitos já devem ter ouvido a expressão em inglês “garbage in, garbage out”, é sobre isso.

Em geral, o dia a dia de cientistas de dados vai se assemelhar ao CRISP-DM, mas não necessariamente será exatamente igual. Fonte: Wikimedia Commons.

Entendimento e limpeza dos dados

Para garantir a qualidade dos seus dados, o primeiro grande desafio que se encontra como cientista de dados é de entender os dados disponíveis para fazer análises e isso inclui entender o fluxo das bases (de onde elas vêm e qual o processo para elas serem adquiridas).

E se você já foi atrás de tutoriais de dados, provavelmente recebeu bases praticamente prontas. Esse é o sonho de qualquer cientista de dados! Mas a realidade é bem longe disso. Eu mesma já fiz esses tutoriais e mesmo que na época já tivesse ouvido várias pessoas que atuam na área falarem sobre o trabalho que se tem na limpeza de dados, eu só acreditei de verdade quando vivi isso no dia-a-dia do trabalho. É muito comum existirem erros nos processos, o que vai afetar a sua base. Por isso, o primeiro código que você precisa fazer é de limpeza e verificação dos dados. Em áreas ainda pouco estruturadas em dados (como foi o meu caso) é uma etapa que pode ser muuuito longa e um tanto cansativa.

Antes de entrar na Loft, eu diria que isso parece ser um trabalho que vai ser difícil, cansativo e demorado, mas juro, ele vale a pena! Normalmente essa é uma etapa injustamente desvalorizada, mas ela é com certeza uma das mais importantes. Quando você tem confiabilidade nos seus dados, você não trará somente mais confiabilidade aos seus resultados, como também trará impacto positivo para o negócio como um todo. Quando comecei essa etapa, surgiram várias revisões dos processos: eles são eficientes? Estão bem estruturados? Como está o nosso fluxo de informações? Isso permitiu que a área de people analytics soubesse onde e como aprimorar os processos e hoje está mais próxima de se tornar uma área de dados. E sem dúvida isso foi muito valioso! E o mais importante como cientista de dados nessa etapa é você sempre pensar: os números e categorias estão fazendo sentido? As contas de forma geral estão fechando?

Análise exploratória

Seus dados estão conferidos e você tem alta confiabilidade neles? Ótimo! Agora começa uma etapa muito interessante, que é a análise exploratória dos dados (que normalmente chamamos de EDA, do inglês). Pode ser que aqui você ache mais algumas discrepâncias que precisarão ser limpadas, mas não tem problema em voltar uma etapa para depois retornar ao EDA, é comum que este seja um processo iterativo.

A ideia do EDA é um processo de investigação, onde você entende as características dos dados através de visualizações e estatísticas, por exemplo, verificando distribuições e procurando as informações mais importantes. Aqui, é possível tirar insights dos dados e verificar se as suas percepções sobre o problema estão ou não corretas. Os conhecimentos mais exigidos nesta etapa são de estatística, negócios e visualização de dados. Negócios? Sim! Cientistas de dados também precisam entender sobre negócios. Sem isso, você pode acabar resolvendo problemas que não são relevantes, ou ainda não sabendo quais são os testes, visualizações e modelos adequados para o problema. O que eu fiz muito para não cair na cilada de resolver o problema errado, foi conversar com pessoas que estão próximas do problema e até perguntar que tipo de informação seria muito útil para ajudar no trabalho delas. É muito importante “sair da caverna” e conversar com pessoas, efetivamente fazendo parte da tomada de decisão. Se quiser ver mais sobre esse assunto, recomendo este vídeo!

Modelagem

E agora sim, finalmente passamos para a tão famosa e querida modelagem. Mas se você pensa que sempre buscamos os modelos mais complexos, não se engane! Muitas vezes conseguimos resultados muito valiosos com os modelos mais simples. Se o problema não é resolvido com as opções mais simples, aí sim partimos para a complexidade. Com isso, também quero ressaltar que não existe um modelo melhor que o outro, mas sim um modelo mais adequado para o que se deseja resolver! E aqui ressalto novamente como o conhecimento do negócio é importante, para que você use modelos que façam sentido para o problema e solucionem algo que é realmente uma dor para o seu time. É assim que se gera impacto de verdade!

Após a modelagem ainda temos algumas etapas, como fazer a seleção do modelo que performou melhor para o seu problema e colocar o mesmo em produção, mas o foco aqui era mostrar como a modelagem é só a ponta do iceberg da ciência de dados!

OBS: dependendo da sua atuação e empresa, o seu trabalho pode ser diferente do descrito. Cada trabalho com dados pode ter suas peculiaridades.

Conclusões

A ciência de dados é um mundo muito grande e isso faz com que tenham muitas variáveis nela. Dentre as habilidades importantes que citei, eu definiria ciência de dados como a junção de 3 grandes categorias: programação, negócios e estatística/matemática. Ver esse tanto de habilidades pode ter gerado alguma ansiedade, mas não se preocupe, é muito normal que cada pessoa tenha alguns pontos mais fortes que outros e além disso, não é preciso ter ansiedade para saber tudo, porque você passa por um aprendizado constante, até quando você já é experiente, já que é impossível saber tudo sobre ciência de dados!

E se você tem interesse em ciência de dados (e em especial em iniciar a carreira na área), mas acha que apenas pessoas super experientes conseguem essas vagas — não desista! Eu sei que parece ser uma área onde só existem pessoas com pós-doutorado ou muitos anos de experiência, mas não é bem assim. Eu mesma senti isso assim que entrei na Loft. Eu sou graduanda em engenharia metalúrgica, o que não tem nada a ver com ciência de dados. Mas consegui aprender muito com o tempo e usei as habilidades interdisciplinares da engenharia a meu favor! E para mim o mais importante foi o pensamento crítico e ter continuamente refletido se estava resolvendo o problema certo. Acho que aqui se encaixa muito bem uma frase que falamos muito aqui na Loft: se apaixone pelo problema e não pela solução! Com isso quero dizer que no final do dia, mesmo que você não tenha muito conhecimento nem experiência, existem muitas formas de contribuir com o time e gerar impacto!

Referências:

[1] https://www.youtube.com/watch?v=kYMfE9u-lMo

--

--