Os 10 principais Conhecimentos de um Cientista de Dados

Lui Magno
comunidadeds
Published in
10 min readNov 22, 2023

Quais são os principais conhecimentos que um Cientista de Dados e como eles vão te ajudar a ser um profissional de ponta.

Quais são os principais conhecimentos que um Cientista de Dados e como eles vão te ajudar a ser um profissional de ponta.
Com certeza você já sentou na frente do computador para começar os estudos e se sentiu totalmente perdido, eu vim aqui te ajudar nisso.

Olá! Tudo bem com você? Meu nome é Lui Magno, Cientista de Dados aqui da Comunidade DS. Hoje quero falar com vocês sobre um tema que eu adoraria ter visto mais conciso quando comecei meus estudos na área de dados: Os 10 principais conhecimentos de um Cientista de Dados.

É normal se sentir perdido quando você inicia seus estudos sobre algo, seja um curso, um novo trabalho ou até mesmo um hobby. Por isso tanta gente recorre à internet para entender como começar e quais são os melhores caminhos.

Para Ciência de Dados não é diferente. Existem muitas fontes que dizem muitas coisas diferentes, mas eu vim aqui na tentativa de sondar essas fontes e resumir para você quais são essas áreas de conhecimento. Por isso, elenquei 10 competências/habilidades que todo cientista de dados deve possuir.

1 . Programação (Python e R)

Para atuar na área de Ciência de Dados é fundamental possuir conhecimento em algumas linguagens de programação, sendo as principais o Python e o R.

Python: amplamente utilizado na área empresarial, uma das linguagens mais fáceis e acessíveis do mundo! Fontes não vão te faltar: livros, cursos, comunidade e muito mais. A facilidade com que se inicia Python faz muita gente se apaixonar (foi o meu caso).

R: mais utilizada no ambiente acadêmico, o R é uma linguagem científica muito utilizada em contexto mais complexos, onde algoritmos mais robustos e pesados são desenvolvidos para resolverem problemas mais específicos. Mas não tenha medo, R também pode ser uma ferramenta poderosa na mão de um Cientista de Dados experiente.

Você pode achar informações sobre essas linguagens em muitos lugares da internet, mas a minha indicação principal é começar por livros iniciais, no último tópico abaixo eu faço algumas indicações de materiais.

2. Probabilidade e Estatística

Todo bom Cientista de Dados que se preze precisa de alicerces sólidos em matemática. E esses alicerces se mostram ainda mais importantes quando falamos de Probabilidade e Estatística.

Que fique bem claro aqui, você não precisa ser um expert ou ter uma formação na área para atuar com isso em Ciência de Dados, mas ter um feedback forte em relação a essas áreas quer dizer que você esteja capacitado a lidar com situações em que contextos matemáticos do tipo não sejam de grande dificuldade para você.

Mas que contextos são esses? Vou dar alguns exemplos, já para te situar:

  1. Amostragem e Inferência
  2. Análise Exploratória de Dados
  3. Modelagem Estatística e Machine Learning
  4. Testes A/B e muitos mais.

Mas comece pelo simples, inicie fazendo algumas Estatísticas Descritivas iniciais, como algumas porcentagem, separação por grupo e etc. Eu mostro como fazer isso em outro post meu, você pode ver ele aqui -> Análise de Dados em Python, 4 análises iniciais sobre o Enem.

3. Inteligência de Negócio

Taí um conceito que eu achava abstrato quando comecei no mundo da Ciência de Dados. Mas depois dos primeiros meses e projetos de portfólio, o conceito ficou mais claro na minha cabeça.

Hoje em dia eu entendo Inteligência de Negócio como uma das skills mais importantes para uma equipe de dados dentro de uma empresa que quer atuar bem no ramo.

Por definição, Business Intelligence (BI) é o conjunto de tecnologias que transforma dados em insights acionáveis, facilitando a análise e a tomada de decisões estratégicas nas organizações para impulsionar o sucesso empresarial.

A partir de perguntas é que o entendimento de negócio começa:

“Será que um apartamento vende melhor por ter mais quartos? Mais vagas de garagem? Mais metros na varanda?”

“Será que produto X vende mais para pessoas com Y idade?”

“Será que filme Y deveria ser lançado numa época X do ano?

Todas elas são respondidas com Inteligência de Negócio.

4. Machine Learning

Uma subárea da Inteligência Artificial que permite aos computadores aprenderem e melhorarem baseados em dados. Os algoritmos de ML identificam padrões, tomam decisões, preveem resultados e automatizam tarefas.

É uma subárea com usos nos mais diversos produtos/áreas: saúde, finanças, marketing, varejo, recrutamento, educação e muito mais. E por isso influencia tanto na área de Ciência de Dados.

Existem N algoritmos de Machine Learning que são utilizados para resolverem os mais diversos problemas, sejam algoritmos de Classificação (KNN, Regressão ou Decision Trees), algoritmos de Regressão (Decision Trees, Random Forests, Gradient Boosting) ou até mesmo de aprendizado não-supervisionado (K-means, PCA e mais).

Esses algoritmos são utilizados pelo Cientista de Dados em bibliotecas específicas como Sckit-learn, Tensorflow, Keras e várias outras. Essas bibliotecas (a maioria de fácil acesso) são opções rápidas e dinâmicas de serem adaptadas para qualquer problema que apareça que necessite de uma abordagem de Machine Learning.

É uma área extremamente interessante e complexa, onde os que se destacam nela costumam se alocar muito bem no mercado de trabalho de Ciência de Dados.

05. Engenharia de Software

O foco nesse tópico é: uso de ferramentas e tecnologias que te auxiliam no dia a dia como um Cientista de Dados!

A Engenharia de Software vem para ajudar nesse quesito, com ferramentas focadas em atividades específicas, como:

  1. Git/Github: compartilhamento e versionamento de código.
  2. Streamlit: uma biblioteca em Python que facilita a criação de aplicativos da web interativos para análise de dados e visualização.
  3. Anaconda: plataforma para a criação de ambientes de desenvolvimento, utilizando Python, R e suas bibliotecas como o Pandas, o Sckit-learn e muitas outras.
  4. Jupyter Notebook: queridinho dos profissionais de Ciência de Dados, é uma aplicação web que permite criar e compartilhar documentos que contém código.
  5. E muitas outras: SQL, Excel, Tableau, PowerBI, Hadoop, Spark…

Essas ferramentas e linguagens compõem o ecossistema diversificado de um cientista de dados moderno, permitindo a manipulação eficiente de dados, criação de modelos, visualização de resultados e colaboração com outros profissionais. A escolha específica de ferramentas muitas vezes depende das necessidades do projeto e das preferências individuais.

Por isso a dica é: tente saber um pouco de cada ferramenta e foque naquelas que você tem mais disposição ou aquelas que irão te garantir uma vaga no que você mais quer.

06. ETL — Extract, Transform and Load

Significa: Extrair, Transformar e Carregar. É um processo fundamental do campo de gerenciamento e análise de dados, onde as 3 etapas têm muita importância, e devem ser tratadas com seriedade em cada uma delas.

Vamos imaginar um caso de uso real: uma empresa de jogos precisa saber como os jogadores estão reagindo ao novo lançamento da marca.

Extrair

Nesta fase, os dados são extraídos de fontes de dados originais, que podem ser bancos de dados, sistemas de arquivos, APIs ou outras fontes de dados. O objetivo é reunir os dados brutos necessários para análise.

Caso real: uma empresa de jogos está focada em coletar informações sobre o lançamento. Por meio de fóruns, reviews em sites especializados, notas em aplicativos e leitura do teor dos comentários, a empresa consegue coletar esses dados e passar para a próxima fase.

Transformar

Os dados extraídos passam por um processo de transformação, onde são limpos, organizados e estruturados de acordo com os requisitos específicos do sistema de destino ou do modelo de dados. Isso pode envolver a remoção de duplicatas, tratamento de valores ausentes, conversão de formatos e agregação de informações.

Caso real: agora com os dados a empresa quer utilizar nele algoritmos e análises para entender melhor como esses dados se comportam e quais serão os próximos passos a partir dessas descobertas.

Carregar

Na etapa final, os dados transformados são carregados no sistema de destino, que pode ser um data warehouse, um banco de dados analítico ou qualquer outra plataforma de armazenamento de dados. Esses dados preparados e organizados estão agora prontos para serem utilizados em análises, relatórios ou outras aplicações.

Caso real: agora é subir essas análises e resultados de algoritmos para o time de negócio decidir o que fazer com as novas informações geradas. Planejar uma expansão? Focar na resolução de bugs? Mais skins cosméticas?

07. Algoritmos e Estruturas de Dados

Algoritmos e estruturas de dados desempenham papéis fundamentais na Ciência de Dados, contribuindo para a eficiência, desempenho e capacidade de lidar com grandes volumes de dados.

A ideia é: você não precisa ser um programador expert para ser um Cientista de Dados expert. Mas as suas skills de algoritmos e estruturas de dados vão te ajudar bastante nas mais diversas atividades que você terá que fazer diariamente.

Processamento, pré-processamento, Machine Learning, otimização, Visualização e execução do ETL são só algumas das atividades que uma noção mais forte de programação irão te ajudar a executar todas tranquilamente.

Pode parecer algo meio “assustador” no começo, pelo menos é o que muita gente fala, mas com o foco certo e os professores certos, programação não é nem de perto a atividade mais complexa de um profissional de Ciência de Dados.

08. Solução de Problemas

Pode parecer até uma skill meio abstrata, mas o “Problem Solving” já um dos pré-requisitos mais pedidos por vagas de dados no mercado. Mas o que seria exatamente essa resolução de problemas?

Achando a definição rápida no google, Resolução de Problemas é um processo que envolve a identificação, análise e resolução de um problema ou desafio específico. Pode ser aplicada em diversas áreas da vida, desde questões cotidianas até problemas complexos em contextos profissionais. Em um contexto mais amplo, a solução de problemas é uma habilidade crucial para superar obstáculos e alcançar objetivos.

Em Ciência de Dados você precisará dessa skill em várias etapas de quase todos os processos:

  1. Identificar um problema,
  2. Selecionar métodos e técnicas adequadas,
  3. Preparar e limpar dados,
  4. Escolher modelos,
  5. Interpretar resultados,
  6. Comunicação eficaz.
  7. Abordagem criativa e mais.

É uma skill que se aprende muito mais na vida real, mas estudar e aplicar em problemas reais de outras pessoas também ajudam muito no desenvolvimento da habilidade.

09. Storytelling

Em Ciência de Dados, Storytelling é a habilidade de contar histórias envolventes e significativas sobre dados. Ou seja, é a capacidade de um profissional da área de repassar de forma intuitiva tudo aquilo que foi aplicado em etapas anteriores, contando assim uma história.

Você não vai chegar no chefe do seu setor e dar uma aula de 2 horas sobre Machine Learning, aprendizado supervisionado e regressão linear, né? O tempo de quem está em cargos de gerência é muito precioso. Por isso mesmo que pessoas desse nível precisam de instruções sucintas e diretas, com palavras-chave fáceis de serem entendidas.

Ou seja, você chegará na apresentação dos seus resultados com exemplos e palavras de fácil entendimento, pois o time provavelmente não precisa saber da complexidade da solução, mas sim da facilidade do resultado.

10. Soft Skills

Por último e não menos importante: soft skills. São as características pessoais e traços de personalidade que afetam a forma como as pessoas interagem com os outros e desempenham suas funções no ambiente de trabalho.

Essas habilidades são muitas vezes mais difíceis de quantificar do que as “hard skills” (habilidades técnicas específicas), mas são igualmente importantes para o sucesso profissional. Alguns exemplos comuns de soft skills incluem:

“Soft skills” (habilidades interpessoais ou habilidades comportamentais) referem-se a características pessoais e traços de personalidade que afetam a forma como as pessoas interagem uns com os outros e desempenham suas funções no ambiente de trabalho. Essas habilidades são muitas vezes mais difíceis de quantificar do que as “hard skills” (habilidades técnicas específicas), mas são igualmente importantes para o sucesso profissional. Alguns exemplos comuns de soft skills incluem:

  1. Comunicação,
  2. Trabalho em equipe,
  3. Liderança,
  4. Resolução de problemas,
  5. Adaptabilidade,
  6. Ética,
  7. Empatia,
  8. Gestão de Tempo e muito mais.

Dizem que hard skills vão fazer você chegar longe, mas são as soft skills que vão fazer você chegar no topo.

Conclusão

Sim, existem várias outras skills que um Cientista de Dados deve ter, mas acho que consegui resumir bem para vocês quais são as 10 principais, as que mais escuto falar e ver em comunidades, blogs e redes sociais.

Praticar e ter essas skills no seu currículo vai te ajudar a encontrar vagas mais rápido, isso tudo junto com outras skills que você já deve ter da sua carga de trabalho e aprendizado.

Se fosse para citar outras skills que ficaram para trás nesse top 10, eu diria: inglês, bancos de dados, conhecimento em nuvem, desenvolvimento ágil e mais.

Espero que tenha gostado do texto!

Continue estudando!

Livros para Ciência de Dados: https://medium.com/@adrianorqsoares/5-excelentes-livros-sobre-data-science-para-iniciantes-começarem-a-praticar -> Esses livros já englobam Programação, Inteligência de Negócio, Engenharia de Software e StoryTelling.

Livro para Estatística: Estatística Básica — Wilton de O. Bussab

Livro de Machine Learning: Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems.

Livro para Algoritmos e Estruturas de Dados: Lógica de Programação — Andre Luiz Villar Forbellone.

Indicação de Soft Skills: Faça parte de comunidades! Seja no linkedIn, no Medium, no Discord, onde você puder. Treine sua apresentação, comunicação, seja proativo.

--

--

Lui Magno
comunidadeds

Cientista de Dados/Backend Developer. Gosto de Ciência, gosto de Cultura Pop em geral e tento criar conteúdo sobre os 2.