Minha Jornada Data Scientist

Tiago Oliveira
Ensina.AI
Published in
4 min readAug 10, 2018

Meu primeiro contato com Inteligência Artificial foi no ano de 2003 quando eu cursava Processamento de Dados na Escola Técnica Prof Basilides de Godoy em São Paulo. Naquele tempo, não me recordo ao certo o motivo, mas encontrei um livro na biblioteca de nome “Inteligência Artificial em C”, peguei para ler e no livro já encontrei o desenvolvimento de modelos para reconhecimento de imagens em duas situação diferentes: Placas de Veículos e Objetos em uma esteira de linha de produção.

Aquilo realmente me deixou bastante intrigado pelo poder que havia ali embutido. Lembro que em seguida eu fiz uma apresentação para a turma sobre o tema exibindo um vídeo do funcionamento eletroquímico de um neurônio capturado por ressonância magnética funcional (fMRI). Era a primeira vez após o ensino fundamental que eu lidava com palavras como Soma, Potencial de Threshold, Ativação de Sinapse, e etc com sentido prático, mas em software. Quantas conexões ou novas sinapses naquele momento!

Naquele mesmo ano, nossa turma foi para uma feira de inovação tecnológica na Poli-USP e troquei alguns e-mails com um aluno de lá que apresentava algo com Markov Chain que implementou em Visual Basic (eu não me recordo bem o quê).

Já na faculdade em 2006 (no antigo CEFET-SP, hoje IF-SP), dentre os desafios para atividades do semestre por grupos, um professor havia sugerido o desenvolvimento de um algoritmo em Java para recomendação de melhor combinação de turmas de aula, considerando a maximização dos respectivos pesos de variáveis como: tempo de casa do professor, disponibilidade de salas, quantidade de alunos por turma, preferências dos professores e etc. Aprendi um pouco sobre algoritmo evolutivo (e me veio a palavra “fittest”).

Mas foi no Mestrado Profissional em Administração em 2013 no Insper que consegui conectar todos esses pontos em minha cabeça. A disciplina se chamava Análise Avançada de Informações, e um trimestre depois o professor idealizador do curso (Prof. Antonio Zoratto Sanvicente) confessou que deu este nome mais encantador para desfarçar a aterrorizante disciplina chamada Econometria. Nas atividades de laboratório utilizando Stata,eu via na prática conceitos de Teste de Hipótese, Coeficiente de Correlação, Variável Explicativa, R-square, Q-square, P e t de student, teste de heteroscedasticidade, teste Breusch-Pagan, Root MSE, ANOVA, e etc. Ali decidi que o nome de meu filho seria “Gujarati”, pois Damodar Gujarati foi o autor do livro que me ajudou a tirar 8,5 na última prova do trimestre, recuperando uma nota horrível na primeira prova.

Infelizmente eu não consegui finalizar o mestrado no Insper, mas em 2017 retomei um mestrado como aluno especial na USP, pegando duas disciplinas fantásticas como “Reconhecimento de Padrões” e “Análise de Algoritmos e Estrutura de Dados”. Foram três meses intensos utilizando R-Studio e dando meus primeiros passos com Jupyter Notebook, TensorFlow e Python sobre a “Stack de Machine Learning” para modelos supervisionados e não-supervisionados como: SVM, PCA, Feature Selection (Multivariate methods, Chi-Square, F-score e etc), Métodos Sintáticos, Decision Tree, Random Forest, Multilayer Perceptron, Redes Bayesianas, K-Nearest Neighbors, K-Means, Naive Bayes, entre outros testes por conta própria com Deep Neuron Network utilizando TensorFlow DNNClassifier. Lembro da professora Dra Ariane Machado Lima insistir que ninguém saia do curso sem entender a regra da Maldição da Dimensionalidade. De fato, passou o tempo, e estou cada vez mais convencido de sua importância. A disciplina de Estrutura de Dados e Algoritmos foi de igual importância relembrando os fundamentos de engenharia de software, tendo “Cormen” como Bíblia Sagrada.

Em 2018 alcei voos mais desafiadores indo para Berlin para fazer o curso de Data Scientist em modo Bootcamp na Data Science Retreat. Foi uma experiência única em minha vida focando três meses em profundos estudos, codificando, testando, analisando casos reais de Machine Learning (seus fundamentos e mecânica) com professores excepcionais — que aplicam no mundo real todo esse ferramental em grandes empresas na Europa.

A história do curso em Berlin daria um artigo à parte pela experiência que tive nesta cidade que, ao meu ver, vive um momento único de tantos incentivos à inovação tecnológica em software (especialmente); ainda mais sendo eu alguém fascinado por tecnologia. Foi marcante!

Daqui da República Tcheca sigo tendo avanços no meu projeto de Machine Learning para detectar anomalias e doenças cardíacas por meio do exame de Eletrocardiograma. Toda esta base prática e teórica tem me dado um bom suporte para os questionamentos que sigo fazendo e respostas obtidas em cada passo do projeto.

Finalizo dizendo que mais importante que tudo isso, é necessário ter um instinto de eterna curiosidade por tecnologia e software, bem como estar próximo do mundo acadêmico. É importante não esquecer o termo “Science” deste, não tão novo, domínio de conhecimento chamado “Data Science”. Eu me sirvo bem de Livros sobre o tema, recentemente eu me associei ao Association for Computing Machinery ,e tenho me surpreendido com a imensidão e qualidade de papers e artigos acadêmicos sobre engenharia de software e Machine Learning que são disponibilizados nesta plataforma.

“Study hard what interests you the most in the most undisciplined, irreverent and original manner possible.”― Richard Feynman

A empreitada para o ano de 2019 é retomar e concluir o mestrado aqui na Europa. Estou tentado a explorar algum tópico sobre Teoria dos Grafos com foco em Machine Learning ou Computação Distribuída. A ver… Cenas dos próximos capítulos :)

--

--

Tiago Oliveira
Ensina.AI

(Senior Lead Solution Architect, Knowledge Graph Systems | Functional Programming, Bigdata & Reactive Architecture Enthusiast) -[:LOVE]-> ( Art )