Entrevista: Matheus Araújo, Pesquisador em Machine Learning

Tire todas as suas dúvidas sobre como é o caminho e a carreira de um pesquisador em Machine Learning!

Allan Sene
Data Hackers

--

Quer ser um pesquisador na área de #machine-learning e tem muitas dúvidas sobre isso? Tire suas dúvidas agora! Fizemos a primeira edição do AMA: Ask Me Anything com Matheus Araujo que se disponibilizou a responder todas as nossas perguntas no nosso fórum!

Matheus Araújo

Matheus é doutorando e auxiliar docente no departamento de Ciência da Computação da Universidade de Minnesota nos EUA, liderando projetos com foco em soluções para a análise de dados na área da saúde e bem-estar. Ele também é bacharel e mestre pela UFMG, especializando-se em desenvolvimento de técnicas para análise de sentimentos em textos. Foi também pesquisador pela Qatar Foundation, trabalhando no Qatar Computing Research Institute e contribuindo com pesquisas dentro do departamento de Computação Social. Nas instituições em que passou, Matheus fez importantes contribuições em conferências como WWW, ICWSM, ASONAM e COSN. Hoje mora em Mineápolis e encontra tempo para se exercitar na natação, e jogar com seus amigos durante o longo inverno da cidade.

Abaixo temos o transcript de toda entrevista. Não deixe de ler!

Allan Sene: Como que foi o processo de seleção aí pra Universidade de Minnesota?

University of Minnesota: Twin Citties

Matheus Araújo: O processo seletivo para o doutorado na Universidade de Minnesota é bastante similar ao de outras universidades nos EUA. É um pouco burocrático por causa dos documentos que pedem mas tranquilo de fazer. O chato foram as duas provas que tive que fazer (listadas abaixo). Por alguns meses, usei o tempo que tinha extra no Qatar para estudar para essas provas. No mais, foi escrever um Statement of Porpuse relativamente genérico que eu pudesse mudar apenas algumas partes e enviar para várias universidade. No mais, caso desejem submeter uma aplicação você precisa de:

  • Ter duas notas obrigatórias: o TOEFL iBT(inglês) e o GRE(inglês e matemática). São duas provas bem chatas de se fazer, mas depois que você fez, elas valem por 2 e 5 anos respectivamente e podem ser usadas para a maioria das universidades. Normalmente, não tem nota mínima, mas se for mal em nelas suas chances caem, ai você terá que compensar em aspectos.
  • 3 cartas de recomendação de professores ou pesquisadores, por isso é importante para quem planeja um doutorado já ter contato com professores o mais cedo possível. Bolsas de Iniciação cientifica são muito bom para isso.
  • Um currículo escrito em inglês.
  • Um “Statement of Porpuse”. Este é um texto onde você discute suas experiências e ambições relacionados a Ciência da Computação. Você escreve os projetos que já participou, o que você deseja fazer, algum problema que você gostaria de estudar. Um bom “Statement of Porpuse” pode te ajudar caso tenha notas ruins por exemplo.
  • Por ultimo, você precisa enviar seu histórico escolarem inglês.
  • Pagar uma taxa de 95 dólares.

Eu sinceramente não acreditava que conseguiria ser admitido pois minhas notas, tanto no TOEFL quanto GRE foram bem ruins. Mas acabei passando em 2 das 5 universidades que consegui. Minha dica então é realmente não ter medo de tentar.

Rodolfo Mendes: Com relação aos custos de um doutorado: existem cursos gratuitos como nas universidades brasileiras ou os cursos são pagos? No caso de cursos pagos, existe a possibilidade de adquirir bolsas de estudo?

Matheus Araújo: Aqui nos EUA praticamente não há ensino gratuito seja nas instituições particulares ou públicas. Porém existem diferentes formas de você conseguir bolsas de estudos:

  • A principal forma é você aplicar para uma bolsa de RA (Research Assistant) ou TA (Teaching Assistant). Eu estou nessa modalidade onde você é financiado pelo seu departamento na universidade e trabalha como pesquisador ou auxiliar docente, no meu caso trabalho sou TA da matéria de banco de dados. Além dos custos de matrículas e taxas relacionadas ao doutorado em si, eles também pagam um salario mensal suficiente para você custear despesas para viver na cidade.
  • Outra forma é você conseguir a bolsa pelo próprio governo brasileiro com o programa Ciência sem Fronteiras. O interessante é que você pode ser TA ou RA e também ter uma bolsa do governo brasileiro. Porém existe a burocracia envolvida e você tem que voltar para o Brasil depois do término do seu programa.
  • Há também outras instituições que também distribuem bolsas pelo mundo todo e vale a pena dar uma pesquisada, como por exemplo a IIE

Pablo Brenner: Fiz graduação sanduíche na North Caroline State em 13’ e 14’ e hoje tenho vontade de fazer um masters ou Phd. Porém hoje meu contato com o meio acadêmio e de pesquisa é zero, trabalho como cientista de dados em um banco no Brasil. Você acha que essa situação é um possível detrator para minhas candidaturas ou é possível utilizar a experiência profissional a favor?

Michigan State University

Matheus Araújo: Eu também fiz graduação sanduíche no mesmo período que você porém na Michigan State University. Eu entendo a sua preocupação e realmente, no caso de um doutorado o seu possível orientador está mais interessado no seu potencial acadêmico do que profissional. Porém ter experiência como cientista de dados em ambiente de produção pode ajudar sim. Mostrar que você é capaz de implementar com facilidade conceitos de Data Science brilha nos olhos de quem vai te orientar. Tenho amigos aqui que entraram no mestrado sem muita experiência acadêmica, mas tinham um bom background na industria. Talvez seria interessante você fazer um mestrado no Brasil, voltando a ter contato com pesquisas científicas e publicando artigos, e caso decidisse que quer isso mesmo, aplicar para um doutorado fora.

Pablo Brenner: Quais são as linhas de pesquisa que você percebe sendo como mais promissoras hoje aí nos EUA?

Matheus Araújo: Essa área que estou trabalhando agora de Health Informatics está caminhando a passos largos. Ela mistura um pouco com o crescimento de pesquisas no campo de dispositivos móveis/vestíveis que também vem despontando. Há também o cenário de Deep Learning, no qual os pesquisadores estão tentando resolver praticamente qualquer problema com redes neurais (eu sou um pouco cético em relação a praticidade disso).

Mas em geral, parece que tudo tem potencial para ser “smart” e melhores decisões serem tomadas. Então, toda a área de data science está promissora e tem muita coisa para ser feita ao meu ver.

Rodrigo Ferreira: Como você ver o mercado de trabalho nos EUA para essa área de Data Science? Existem muitas oportunidades? Acredita que vale a pena brasileiros tentar se mudar para o país para quem quer trabalhar nessa área ai?

Matheus Araújo: Realmente estou um pouco afastado do mercado devido minha atuação acadêmica então minha resposta pode não ser a mais acurada.

Eu acredito que data science tem muito potencial, mas aquele movimento utópico de juntar uma muda de roupas e viajar para a califórnia com planos de encontrar uma oportunidade numa startup de data science que vai explodir esteja ultrapassado.

Health Informatics: Grande promessa para pesquisa em Data Science. Photo by Scott Webb on Unsplash

Eu acredito que há oportunidade sim, mas há támbem muita concorrência, principalmente com outros imigrantes da china/índia, chegando com seus mestrados e estão sedentos para conseguir jobs e ficar por aqui. Acho que o ponto fica na sua capacidade de mostrar o seu diferencial.

O que eu posso dizer é que Data Science tem muita demanda e pouca oferta. Um exemplo é a parceria que meu laboratório tem com um hospital da região onde eles nos procuram bastante para resolver alguns problemas na área da saúde para eles.

Pessoalmente, eu tenho muita vontade de fazer o contrário, implementar soluções no nosso Brasilzão!

Paulo Vasconcellos: quais tendências na área de Dados terão maior destaque esse ano? Deep Learning tem potencial de crescimento, ou você acha que aplicações comerciais ainda demorarão um pouco?

Matheus Araújo: Este ano acho que Smart Cities vai vir com força, não sei se você conhece o trabalho do Daniele Quercia. Ele tem um TED Talk que vale a pena ver.

E você citou Deep Learning, que acho que também veio para ficar. Com certeza vamos ver mais noticiais (e artigos científicos) onde redes neurais (profundas) solucionam problemas antes inimaginaveis. Tem muita coisa maluca sendo feita com deep learning!

Em relação a parte comercial, acho que veremos Deep Learning sendo suportado pelas grandes empresas(Google-IBM-Microsoft) e suas APIs. Então provavelmente veremos pipocar em algumas aplicações como chatbots.

Porém pessoalmente, acho que muita gente esta vendo Deep Learning como Silver Bullet, mas um dos jargões que mais acredito é que não existe Silver Bullet. Há muita coisa que podemos solucionar utilizando métodos convencionais de machine learning com resultados muitos bons, sem a enorme demanda de dados que Deep Learning requer.

Richard Camargo: Estou estudando Data Science há pouco tempo ainda, terminando meu primeiro tracking no Datacamp. Minha formação não é relacionada à TI, estou no último ano de Economia na FEA-USP. Minha dúvida é, como eu posso compensar essa falta de um background técnico? E o quanto você acha que isso é um Gap?

Matheus Araújo: É bacana ver o pessoal de outras áreas fora da computação se interessando por Data Science. Boa sorte nesta sua última etapa na sua formação.

Em relação sua pergunta, depende muito do seu objetivo. Se você deseja fazer um mestrado/doutorado em data science vai ter que correr atrás dos fundamentos técnicos e esbarrar em matérias básicas da computação e estatística. Isso não quer dizer de forma alguma que seja difícil.

Agora se seu objetivo é ir direto para implementar sistemas capazes de analisar e extrair informações de dados. Temos cursos online e gratuitos de excelente qualidade (muito superior a cursos presenciais nas universidades brasileira) no Cousera, Udemy, Edx, etc. Eu aconselho muito, você olhar estes cursos, eu começaria com introdução a programação em python e outro em introdução a data science. E tipo, não é uma coisa que você vai demorar meses para ter o conhecimento necessário para fazer alguma coisa. Creio eu, que com poucas semanas você já tem o básico para colocar a mão na massa.

Outra coisa, você está vindo da Economia que já é uma disciplina que interage com bastante dados e têm muito a acrescentar em Data Science. Eu por exemplo, estava estudando Granger-Causality que foi proposto na economia em 1969, mas está aparecendo só agora em trabalhos recentes relacionados a Data Science.

Jones Madruga: GANs — Generative adversarial network. Como você vê esse braço de ML? Ainda é uma discussão muito inicial que pode não dar em nada ou você acredita que é uma área que tende a crescer, sendo capaz de entregar resultados que possam ser usados em produtos / empresas?

Matheus Araújo: Não tive nenhum contato com GANs ainda e este tema é realmente super novo. A única coisa que sei é que foi proposta pelo Goodfellow no livro relativamente recente dele de Deep Learning. Me parece que essa classe de redes neurais que estão sendo capaz de gerar informação, e não apenas modelar ou analisa-la. Um dos exemplos que mais me preocupou recentemente foi uma palestra onde assisti sobre fake videos do Obama sendo gerados:

Em relação ao mercado é difícil de eu falar, mas eu acredito que há sim espaço. Acho que provavelmente você terá que pagar o acesso a API de alguma empresa grande, já não vai ser todo mundo que será capaz de implementar e treinar modelos de GANs.

Jones Madruga: NLP — Natural Language Processing: Ainda é muito difícil achar coisas bem feitas funcionando para o português. Sendo a maioria dos artigos e trabalhos sendo feitos usando o inglês. Você acha que uma vez melhor dominada essa técnica, aplicar ao português será algo simples ou iremos ainda ter que esperar muito até conseguir os mesmos níveis de entrega na nossa língua?

Matheus Araújo: Eu acho o problema extremamente pertinente, de fato, a minha dissertação de mestrado foi justamente sobre isso. No meu caso foi sobre analise de sentimentos em textos em diferentes línguas, e propus como solução a utilização de tradução automática, dado que tradutores estão bastante evoluídos nesse sentido. Apesar de termos muitos bons resultados dentro do contexto de análise de sentimentos, essa solução está longe de ser perfeita e provavelmente terá resultados inferiores em outros contextos.

Como você disse, creio que dominando os conceitos básicos de NLP podemos aplica-los ao português. Podemos criar ferramentas/bibliotecas que fazem isso, como já é feito de certa forma com o nltk/python. Infelizmente a maioria das ferramentas tem o Inglês em mente. A meu ver, deveria haver algum incentivo maior para a produção e principalmente manutenção dessas ferramentas em português pelos próprios professores e pesquisadores lusófonos nesta área. Eu sei de algumas iniciativas mas desconheço alguma biblioteca que esteja sendo mantida. Talvez até exista.

Em suma, nós que planejamos seguir como Cientistas de Dados dentro da esfera nacional, teremos que nos virar para preencher este gap ao longo dos anos. Eu aposto muito na extensão de ferramentas já existentes, com colaboradores lusófonos. Esta demanda só vai crescer.

Caso queira dar uma olhada na minha dissertação de mestrado, pode acessa-la aqui. Eu também desenvolvi o iFeel, uma ferramenta para análise de sentimentos que implementa a ideia da minha dissertação.

E aí? Curtiram essa entrevista incrível?? Então compartilhe! Não deixe também de participar no nosso fórum! Um agradecimento especial à todos que participaram, principalmente ao nosso amigo Matheus Araujo pela disposição.

Valeu pessoal! Até o próximo Ask Me Anything do Data Hackers!

--

--

Allan Sene
Data Hackers

CTO | Lead Data Engineer | Co-Founder of Data Hackers and Dadosfera. Loves science, code and cats ^*^