Dicas valiosas para aspirantes a Cientista de Dados — Habilidades (Parte 3)

Karina Kato
iFood Tech
Published in
8 min readAug 26, 2022

No último artigo, vimos alguns conceitos relacionados à área de Ciência de Dados. Neste, veremos mais detalhes sobre habilidades relevantes para os cientistas de dados.

Em cada profissão, existem certas expectativas em relação as habilidades necessárias de seus profissionais. Às vezes, as pessoas se esquecem que para ser um bom profissional não basta apenas ter habilidades técnicas, é importante ter um equilíbrio entre habilidades técnicas (hard skills) e comportamentais (soft skills).

Eu gosto de pensar que as habilidades técnicas são como ingredientes de uma receita de bolo. Já as comportamentais são as aptidões para prepará-la. Sendo assim, não adianta só ter os ingredientes se você não domina o modo de preparo. Assim como não adianta saber preparar e não ter os ingredientes ou ter ingredientes de qualidade baixa. É o equilíbrio entre bons ingredientes e domínio de preparo da receita que te farão ter um bom bolo no final.

Nem sempre você terá o tempo suficiente para preparar o bolo da maneira como gostaria. Aí entra a sua aptidão de preparo para entender qual receita seria mais adequada dado o seu cenário. Preparar um bolo excessivamente elaborado em pouco tempo pode ser muito arriscado. Será que um bolo simples não seria melhor? Você consegue alterar alguma forma de preparo para ganhar algum tempo? Algum outro time não tem parte da receita já pronta que pode ser reutilizada? Também pode ser que o tempo seja infactível se houver a necessidade do bolo mais complexo. Em outras palavras, as habilidades comportamentais te ajudam a usar as suas habilidades técnicas para aumentar as chances de ter um projeto bem sucedido.

Habilidades técnicas

Existem diversos ingredientes diferentes que podem ser usados para preparar um bolo, porém alguns básicos como farinha, ovo, fermento e açúcar não podem faltar. Mas e aí, quais são esses ingredientes para um Cientista de Dados?

Já vimos no segundo artigo que Ciência de Dados envolve Programação, Matemática, Estatística e Negócios. Sendo assim, as habilidades técnicas listadas aqui estarão relacionadas a essas áreas. Vou listar algumas das habilidades básicas e mais avançadas, mas ressalto que, assim como mencionei no primeiro artigo, foque nas básicas primeiro e olhe os requisitos das vagas que você tem interesse.

Habilidades técnicas básicas:

  • Lógica de programação:

Lógica de programação é uma habilidade técnica subestimada entre Cientista de Dados, contudo essencial. Afinal, esse profissional também programa bastante no dia a dia. Embora existam paradigmas diferentes de programação e peculiaridades em relação as sintaxes de uma linguagem para outra, a lógica para resolver os problemas será similar.

  • Básico de versionamento de código:

O código não pode estar apenas na sua máquina. É essencial nos projetos que o time consiga trabalhar no mesmo código. Também é importante ter um histórico de alterações e controle entre diferentes versões. Dessa forma, ter conhecimentos de versionamento de código é uma habilidade que não pode faltar.

  • Estatística e matemática:

Não indico começar a trabalhar com aprendizado de máquina sem ter pelo menos uma base de estatística e matemática, pois você até conseguirá seguir alguns tutoriais e treinar seu primeiro modelo, mas não entenderá o motivo dos passos e resultados. Por exemplo, por que seu modelo está dando um resultado tão ruim? Será que não faltou algum processamento importante? Como era a distribuição desses dados? Será que a métrica usada seria a mais adequada nesse cenário? Essas são só algumas das dúvidas que você conseguirá responder se tiver uma base mais sólida.

  • Aprendizado de máquina:

Evite tratar os algoritmos de aprendizado de máquina como uma caixa preta. Compreender o funcionamento deles faz com que você consiga escolher processamentos de dados, modelos e parâmetros mais adequados ao seu contexto. É comum iniciantes acreditarem que não precisam entender os algoritmos de aprendizado de máquina, pois um AutoML vai resolver qualquer tipo de problema. Entretanto, se você não sabe como o algoritmo funciona e quais os parâmetros são importantes, vai ter que deixar rodando com uma quantidade gigantesca de iterações até conseguir algum bom resultado e pode ser que mesmo assim não consiga.

  • Análise de dados:

Como mencionei no primeiro artigo dessa série, análises preditivas e prescritivas são usadas pelos cientistas de dados para conseguir extrair insights e trazer valor para o negócio. Eu sempre falo “Garbage in, garbage out”. Não adianta achar que seu modelo ou algoritmo vão fazer milagres se os dados usados forem ruins. Então, aprenda a analisar bem os dados para evitar comportamentos inesperados.

  • Processamento de dados estruturados:

Na maioria das vezes, para conseguir analisar os dados e extrair insights, é necessário saber como processar os dados, pois eles terão ruído ou não estarão no formato desejado.

  • Visualização de dados e Storytelling:

Os insights adquiridos a partir das análises frequentemente terão que ser passados usando gráficos e visualizações. Conseguir contar histórias a partir de dados não é uma tarefa fácil, contudo é uma arte que pode ser treinada. Esta habilidade técnica está muito relacionada a habilidade comportamental de comunicação.

Habilidades técnicas mais avançadas:

  • Aprendizado profundo:

A grande maioria dos modelos famosos e estado da arte que ouvimos falar são de algoritmos de aprendizado profundo (deep learning), porém, eu não indicaria para quem está começando agora aprender aprendizado profundo. Antes é necessário ter os conhecimentos bem consolidados de aprendizado de máquina. Como eu mencionei no artigo anterior, aprendizado profundo exige um volume maior de dados para treinar, é mais usado em projetos com maturidade mais alta e em problemas bem complexos.

  • Processamento de dados não estruturados:

Há várias áreas que exigem dados não estruturados: visão computacional, processamento de linguagem natural (NLP), entendimento de linguagem natural (NLU), chatbots, etc. Manipular dados não estruturados como imagens, textos, vídeos exigem outros tipos de processamentos e frequentemente outros tipos de algoritmos de aprendizado de máquina. Se concentre em aprender primeiro a trabalhar com dados estruturados antes de mexer com dados não estruturados.

  • Processamento de dados em larga escala:

Na graduação ou em cursos, você dificilmente terá contato com dados em larga escala. Quando falo em larga escala não estou falando em centenas, mas de milhões. Em empresas maiores, você provavelmente terá que aprender a manipular esse volume de dados. Entretanto, não se preocupe pois isso raramente será um requisito para quem está começando agora.

  • Computação em nuvem:

Saber resolver o problema na sua máquina é um bom começo, mas no dia a dia nas empresas você provavelmente terá que aprender cada vez mais sobre computação em nuvem (cloud computing). Alguns dos serviços de computação em nuvem mais famosos são: Microsoft Azure, Amazon Web Services (AWS) e Google Cloud Plataform (GCP).

  • Mindset direcionado ao negócio:

Não adianta tentar desenvolver um projeto apenas por ele ser legal. O maior objetivo deve ser trazer valor ao negócio. Dessa forma, tente entender mais sobre o funcionamento da empresa. É mais fácil criar hipóteses e extrair insights quando você tem esse tipo de conhecimento.

Agora que você já conhece alguns dos ingredientes, o que você precisa dominar para conseguir preparar um bom bolo?

Habilidades comportamentais

Criei o gráfico a seguir para listar essas habilidades comportamentais e, na minha opinião, como elas se encontram em uma escala de individual a time e intuitivo a lógico. Vou te mostrar também que algumas habilidades são complementares.

Muitos desses conhecimentos a seguir não são habilidades comportamentais apenas para cientista de dados, mas de diversos outros tipos de profissionais.

  • Adaptabilidade:

Eu acredito que essa é uma das mais importantes, pois mudanças são bem prováveis de ocorrer. Ciência de dados é uma área nova em constante evolução. Então surgem novas tecnologias, há diversos tipos de problemas diferentes que você terá contato, a forma de trabalho de uma empresa para outra pode variar muito e a troca de contexto pode ser grande mesmo entre projetos. Saber se adaptar rapidamente pode ser bom não apenas para o projeto, mas para você mesmo.

  • Comunicação:

Não adianta criar uma solução fantástica se ninguém entender o valor dela. É essencial conseguir se comunicar com o seu time, alinhar as expectativas, conversar com stakeholders e conseguir mostrar para as outras pessoas o valor do seu trabalho. Tente não ficar preso apenas na sua bolha.

  • Criatividade:

Os problemas de ciência de dados reais são complexos. Frequentemente serão longe do cenário ideal que você estudou. Aí entra a necessidade da criatividade para te ajudar a resolver os problemas e criar soluções inovadoras de acordo com o seu contexto. Já fiz uma palestra só falando sobre criatividade no desenvolvimento de modelos de machine learning e espero em breve escrever um artigo com esse conteúdo.

  • Foco e Organização:

Ter foco é bom para conseguir direcionar o seu desenvolvimento. Não tente abraçar o mundo de uma vez. Se você fizer isso, provavelmente irá ganhar um burnout. Minha dica é se organize para ir dando pequenos passos na direção certa. Entenda para onde você quer ir e vá se planejando para ir aos poucos.

  • Inteligência emocional e Resiliência:

Tem dias que as coisas irão fugir totalmente do seu controle e serão caóticas, mas é importante ter inteligência emocional e resiliência para saber lidar com as adversidades. Pode ser difícil, porém tente controlar suas emoções. Uma dica final é lembre-se sempre que não é só o que você fala, mas também como você fala.

  • Colaboração:

Já ouviu o provérbio “Se quer ir rápido, vá sozinho. Se quer ir longe, vá em grupo.”? Pois bem, isso é realmente verdade. Para você chegar longe, dificilmente será sozinho. Colaboração vai além de conseguir trabalhar em grupo, como também fazer networking. Saber construir um networking é uma grande habilidade que deve ser desenvolvida desde o começo da carreira.

  • Autonomia:

Parece contraditório listar colaboração e autonomia, né? Mas não é. Ambas andam juntas. Esteja alinhado o quanto de autonomia você tem no projeto. Comunicação é a cola entre colaboração e autonomia. Qual é o nível de maturidade do projeto? As atividades estão bem definidas? Você receberá o que deve ser feito e cabe a você definir como será executado?

  • Pensamento crítico:

Pensamento crítico não é apenas para níveis seniores. É fundamental para diferentes tipos de atividades em qualquer nível, pois garante uma maior excelência no seu trabalho. Por exemplo, entender a motivação de uma tarefa faz com que você consiga executá-la de uma maneira melhor e até mesmo ter mais autonomia para sugerir formas mais efetivas.

  • Curiosidade:

Eu acredito que curiosidade é uma característica muito presente em pessoas criativas e gera conhecimentos, mas deve ser bem dosada com o foco. É interessante estar de mente aberta a aprender formas novas de resolver problemas e entender como as outras áreas funcionam, mas novamente tome cuidado para não abraçar o mundo e lembre-se do seu objetivo final.

Bom, essas na minha opinião são as habilidades técnicas e comportamentais de cientista de dados. Espero que você tenha gostado desse terceiro artigo da série “Dicas Valiosas para Aspirantes a Cientista de Dados”. Estamos quase no fim. No próximo iremos ver dicas de materiais de estudo.

Fique à vontade para compartilhar com quem estiver entrando agora na área e deixar o seu feedback! Qual dessas habilidades você acha mais importante?

Quer receber conteúdos exclusivos criados pelos nossos times de tecnologia? Inscreva-se.

#ciênciadedados #cientistadedados #habilidades #softskill #hardskill

--

--