5 disciplinas que me fizeram um Engenheiro de Dados melhor

Uma lista de disciplinas “incomuns” pra quem é de TI/Data, que mudaram meu modo de pensar como um Engenheiro de Dados.

Allan Sene
Data Hackers
6 min readFeb 15, 2019

--

Eu não precisava ficar repetindo aqui aquela máxima que vocês devem estar cansados de ouvir, mas vou começar assim mesmo:

Muitas das vezes, o seu diferencial é justamente fugir do rumo que a manada toma.

Quando a gente é novo e um pouco imaturo pra universidade, como eu era em 2008, vivemos reclamando. As grades curriculares são mal formatadas, falando que a faculdade não ensina nada útil, que é tudo engessado e bla bla bla… O tempo passa e vamos entendendo que todo aprendizado vale a pena. Não importa se você virou noite fazendo TP ou se pegou exame especial ou se repetiu várias vezes aquela disciplina maldita — cof,cof,calculo2,cof,cof. No fim do dia, vale o que você tirou de valor daquele tempo investido. É foda? É… então aproveita até o bagaço!

Allan Young Adult: “Vou aprender essa po*&# de Eingenvalues PRA QUE?!?!”

Hoje eu tenho uma visão muito diferente da universidade. Gostaria muito de poder voltar aos 18 anos com a maturidade de hoje e poder aproveitar melhor as 3 graduações pela metade que eu fiz.

Nesse post, compilei 5 disciplinas que eu fiz na faculdade que, hoje em dia, vejo que montaram uma visão única em minha cabeça. Que me fazem um profissional de dados melhor ou, no mínimo, diferente.

Nota: Não vou colocar aqui, logicamente, Algoritmos, Bancos de Dados, Armazém de Dados, Aprendizado de Máquina e etc. porque essas todo mundo sabe que são requisitos e querem fazer com gosto. Meu objetivo aqui é muito mais abrir a cabeça de quem tá começando agora pra fazer algo novo, diferente.

Geometria Analítica e Álgebra Linear

Essa já é bem batida né… Inclusive, aqui no próprio blog do Data Hackers, tem uma introdução ótima ao assunto. A famosa (e fatídica) GAAL é uma das disciplinas mais necessárias pra quem quer trabalhar com Ciência ou Engenharia de Dados. Demorei uns 3 semestres pra passar rsrs… mas valeu a pena entender um pouco mais sobre esse mundo.

Disciplina oferecida na UFMG como:

Departamento de Matemática — MAT038

Ementa:

Álgebra vetorial. Retas e planos. Matrizes, sistemas lineares e determinantes. Espaço vetorial Rn. Autovalores e autovetores de matrizes. Diagonalização de matrizes simétricas.

Por que foi tão importante?

Saber como funcionam as operações básicas sobre matrizes, métodos de decomposição como SVD e LU são requisitos mínimos para entender como métodos de regressão funcionam. Além disso, somente entendendo a fundo as operações, você consegue ver as consequências de se fazer de operações dessas num ambiente distribuído. Cientistas de Dados então, devem debulhar em GAAL.

Análise Numérica

Também chamada de Cálculo Numérico ou Cálculo 4 em outras grades/cursos. Não é tão difícil, já que não é só de prova que se tira ponto, ao contrário de maioria dos Cálculos. O único contra é que os TPs, no caso da UFMG, eram em Fortran.

TP em Fortran

Disciplina oferecida na UFMG como:

Departamento de Ciência da Computação — DCC033

Ementa:

Números aproximados: erro, estabilidade e convergência. Sistemas lineares; inversão de matrizes. Zeros de funções; interseção de curvas. Interpolação. Métodos de integração. Resolução numérica de equações diferenciais ordinárias de primeira ordem. Autovalores e autovetores.

Por que foi tão importante?

Apesar dos métodos numéricos usados atualmente não serem os mesmos, as operações de regressão linear, interpolação e inversão de matrizes são coisas do dia a dia da ciência de dados. Entender os algoritmos que resolvem tais problemas é dever de um Engenheiro de Dados, principalmente quem produtiza modelos de ML em larga escala.

Descrição e Apresentação de Dados

Disciplina do primeiro período do curso de Estatística que ensina os primeiros passos de análise exploratória de dados. De quebra, ensina boas práticas de visualização e padronização de dados. Foi a primeira oportunidade pra usar R num trabalho. Nessa época que dei uma fuçada nos ainda imbatíveis dplyr e ggplot2.

Disciplina oferecida na UFMG por:

Departamento de Estatística — EST183

Ementa:

A estatística e o trabalho científico. Metodologia da pesquisa. Levantamento de dados. Síntese tabular e numérica de dados. Análise exploratória de dados. Tabelas de contingência. Re-expressão de variáveis (transformação, padronização, índice). Suavização de dados.

Por que foi tão importante?

É o primeiro passo pra produção e análise crítica dos gráficos de pizza que vemos por aí. Como já disse outras vezes, um bom Engenheiro de Dados deve conhecer os principais desafios do seu amigo Cientista. Fazer EDA ou ter a oportunidade de montar um storytelling te aproxima muito mais do trampo do cara que mais vai bater no seu ombro no dia a dia.

Organização e Tratamento da Informação

Disciplina MAIS SUBESTIMADA do curso de Sistemas de Informação. Enquanto é uma disciplinas mais importantes da Ciência da Informação (que todo mundo confunde com SI). Lembro que quando fizemos, propusemos no trabalho final um sistema simples de biblioteca que indexava metadados e trechos de livros num ElasticSearch. Usamos a implementação do TF/IDF do próprio Elastic. Foi 10/10.

Disciplina oferecida na UFMG por:

Departamento de Organização e Tratamento da Informação — OTI071

Ementa:

Introdução à organização e tratamento da informação. Introdução aos sistemas de recuperação da informação. Tratamento descritivo da informação. Tratamento temático da informação. Fontes de informação gerais e especializadas. Serviços e produtos de disseminação da informação. Processo histórico da produção dos registros dos conhecimentos.

Por que foi tão importante?

Se você, como eu, adora Recuperação da Informação, essa disciplina vai te dar uma visão que RI (optativa ou na pós) nunca vai te dar: a visão não-técnica do organizador da informação. Vai te mostrar conceitos —Tesauro, Corpus, Taxonomias — que são utilizados há milhares de anos em todas bibliotecas do mundo, pra você parar de achar que ML resolve tudo, sendo que há técnicas muito mais simples e eficientes pra organizar, tratar e recuperar informação.

Usuários da Informação

Outra disciplina da Escola de Ciência da Informação que passa batido pelos alunos de SI. Grande parte de eu ter amado essa matéria, foi graças a professora Eliane que tinha uma experiência como Analista de Interação em uma empresa de TI. Tiveram 2 provas e 1 trabalho final. No trabalho fizemos pesquisas quantitativas e qualitativas sobre o uso do software de submissão de trabalhos da UFMG. Subi um Slack pra fazer discussão em grupo com os voluntários. Foi muito show!

Disciplina oferecida na UFMG por:

Departamento de Biblioteconomia — TGI004

Ementa:

Usuário e não-­usuário da informação. Fatores sócio­econômico que interferem no uso da informação. A relação usuários/serviços de informação: a instituição do ponto de vista do usuário. Estudos de uso e de usuários como áreas de pesquisa e como base para o desenvolvimento de serviços. Interface usuário/tecnologia.

Por que foi tão importante?

Eu ainda não tinha ouvido falar de UX, nem de Design Thinking. Isso ainda nem era essa “modinha” toda no mundo das startups. Aprende-se sobre testes qualitativos, que muitas vezes são mais baratos, simples e conclusivos do que um Teste A/B.

E pra você? Quais disciplinas você fez na faculdade te ajudaram a ser um profissional melhor? Quero ouvir algumas de áreas muito mais diferentes, como Psicologia, Ciências Sociais e Artes. Comenta aí pra gente! Abraço e até a próxima!

--

--

Allan Sene
Data Hackers

CTO | Lead Data Engineer | Co-Founder of Data Hackers and Dadosfera. Loves science, code and cats ^*^