O Que Aprender em Dados?

Jéssica Costa
A Garota do TI
Published in
3 min readJan 12, 2022

Data Science, Data Analytics, Ciência de dados, Análise de dados são as diversas expressões que escutamos em inglês e em português e significam de uma forma bem simplista trazer informação através dos dados. É uma área que está em grande crescimento tanto no Brasil quanto no mundo e muitas pessoas ficam com dúvidas sobre o que estudar para entrar… Recebo esse tipo de questionamento periodicamente, então resolvi escrever este texto de uma forma mais descontraída e com algumas impressões minhas de carreira.

Para começar, já descontruindo dois mitos de que trabalhar com dados não é somente criar gráfico ou fazer query SQL. Fazer uma análise envolve desde conseguir os dados (o que envolve fazer queries) até apresentar suas conclusões para o público através de visualizações (envolve mais do que construir gráficos). Sempre digo que você não vai querer assistir uma apresentação com 2 mil linhas de dados em slides…

Em geral, todos te dirão que que existe uma três habilidade básicas para se trabalhar com dados: programação, matemática e conhecimento de domínio. Mas na minha função já me deparei com diversas situações e acrescentaria outra habilidade: experimentação. Vamos discutir um pouco sobre as habilidades mencionadas.

Habilidades para Ciência de Dados

Saber uma linguagem de programação é indispensável, se usa Python, R, Scala, entre outras. Além disso existem diversas bibliotecas e plataformas que abrangem desde a extração de dados até algoritmos inteligentes que estão presentes no dia-a-dia da área. Aprender é um processo, depende muito da tarefa e tecnologias mudam periodicamente, por isso é importante focar na base: algoritmos. Recomendo fortemente aprender estrutura de dados e bancos de dados, importante até para os algoritmos inteligentes.

Embora estatística seja um campo da matemática, separamos dada a importância específica. Não existe análise de dados sem amostra, sem métricas descritivas, então estatística é fundamental. Média, mediana, desvio padrão, estatística descritiva é básica, porém quando se fala em hipótese, adicione a estatística inferencial. Outros conceitos da matemática são bem utilizados, um exemplo: seus dados formam matrizes, que lembram ela, a álgebra linear! Aqueles algoritmos de Machine Learning tão famosos são aplicações de álgebra, cálculo, probabilidade, depende bastante da técnica, mas isso fica para outro post.

Conhecimento de domínio ou de negócio é relativo ao que será analisado. Então não adianta nada saber todas técnicas de algoritmos, estatísticas e não entender de fato o objeto de estudo. Do que se tratam os dados? Qual é o processo? Qual é o problema? São exemplos de perguntas importantes para se definir o que será feito. Já analisei dados bancários, tive que entender da área bancária. No meu mestrado trabalho com dados de sequências de proteínas, estudo biologia molecular. No meu trabalho atual estou aprendendo sobre logística. Esse inclusive é um diferencial de bom profissional de dados: ele entende do domínio.

Por fim, eu acrescentei a experimentação, que em geral não é mencionada, mas é algo que me deparo com frequência. Conhecimento é adquirido através da teoria e da experimentação. É através da experimentação que se validam e se formulam novas hipóteses, que é a base da análise de dados. Realizar um experimento não é fazer algo aleatório sem nenhum controle. É definir bem a amostra, como será feito, quem são os grupos, como validar e torná-los reprodutíveis. E se você pensou em ciência, pensou certo.

O essencial para um profissional de dados é um tópico muito discutido que abrange questões acadêmicas e de mercado. Importante frisar que as opiniões emitidas no texto são percepções pessoais e não devem ser levadas como regra. Mas podem ajudar alguma pessoa que gostaria de ter uma ideia do que alguém de dados passa em seu dia-a-dia.

Vou ficando por aqui, pensando em outros posts para escrever, embora eu demore bastante para publicar :/

--

--

Jéssica Costa
A Garota do TI

Mestre em Ciência da Computação, GDE em Machine Learning e Cientista de Dados