Considerações sobre o PAPIs 2019

Fernando Gama
CargoX Tecnologia
Published in
5 min readJul 23, 2019

Nos dias 24, 25 e 26 de junho de 2019, aconteceu em São Paulo o PAPIs (Predictive Applications and APIs), a maior conferência de Machine Learning e Inteligência Artificial da América Latina. Como patrocinadora do evento e apaixonados por dados que somos, a Cargo X e todo o nosso time de ciência e engenharia de dados estiveram presentes.

O primeiro dia do evento (24) foi dedicado aos workshops e os dias seguintes (25 e 26) foram focados mais em apresentações. Uma coisa curiosa foi que o evento ocorreu dentro das salas de cinemas do Cinemark do Shopping Eldorado, uma experiência muito diferente e positiva.

Assistir palestras no conforto de um cinema é muito bom!

O PAPIs trouxe um mix de apresentações que atendeu uma gama de perfis de conhecimento que , aliás, eram bem diversificados (de iniciantes a experientes) conforme dados apresentados pela própria organização do evento. Ocorreram apresentações de temas voltados para recomendação, deep e reinforcement learning, detecção e análise de fraudes e diversos cases reais de aplicação (Grupo ZAP, Dafiti, Movile, etc) evidenciando o crescimento do emprego de soluções state-of-art em ambientes de negócio.

A programação do dia 25 era formada por duas trilhas principais: Engineering e Machine Learning in the Wild. Na trilha de Engineering, Adriano Dennanni demonstrou como deployar modelos de Deep Learning com baixo custo de implementação utilizando uma arquitetura serverless. Mais tarde o Rafael Sampaio demonstrou como a combinação do Airflow com o Kubernetes pode ajudar na criação de um workflow ETL mais sintetizado com a utilização de um único operador. Hoje na Cargo X executamos nossos jobs de transformação e carga de dados. A apresentação nos deu um direcionamento sobre o uso de Kubernetes para escalar nossa arquitetura.

Dentro da trilha de ML in the Wild, a Ana Paula Appel apresentou um case real de uma solução para previsão de pagamento de faturas: o objetivo era identificar, dentre os clientes em atraso, quais destes teriam uma probabilidade maior de realizar o pagamento. Um dos aspectos interessantes foi identificar que parte dos históricos mais antigos de comportamento dos clientes estava comprometendo a precisão da solução proposta. Isso demonstra que a sazonalidade pode interferir na precisão do modelo. Por exemplo, aqui na Cargo X isso se aplicaria ao setor de agronegócio, que é uma área muito sazonal, onde nossos modelos de machine learning poderiam ser afetados pela alta ou baixa demanda de fretes em determinados períodos do ano.

Outra palestra interessante foi apresentada pelo Eder Martins, que demonstrou alguns cenários de teste A/B, ressaltando cuidados necessários de aplicação e a importância de combinar modelos de previsão para detecção de eventuais sazonalidades, um tópico bem relevante e que é bem alinhado com a Cargo X vem fazendo.

Destaque também para o keynote do Julien Simon que comentou sobre o emprego do Reinforcement Learning para treinar carros autônomos por intermédio da plataforma da AWS, existindo até mesmo uma competição organizada pela Amazon, uma iniciativa muito legal pra quem quer começar a brincar com esse tema. Pela parte da tarde, o Arnon Santos mostrou como criar um modelo baseado em Deep Learning para o processamento de linguagem natural que classificava os sumários de acordo com os códigos da Classificação Internacional de Doenças para outros distúrbios do trato urinário (CID N39), um ótimo exemplo de como o aprendizado de máquina pode ser utilizado para a automatização de processos, link.

Por fim, Adauto Braz mostrou como utilizar o PCA e K-means podem ser utilizados para classificar os tipos de estudante que a plataforma Stoodi possui. O storytelling da apresentação foi algo que nos chamou a atenção onde ele soube conduzir o tema de forma didática e divertida, ele mostrou como um método simples pode gerar grandes insights e gerar valor para as empresas.

No dia 26 tivemos o keynote do Ludwig, um toolbox de deep learning da UBER que permite treinar modelos e colocá-los em produção sem precisar escrever linhas de código, permitindo que o desenvolvedor se concentre mais na construção de uma arquitetura de deep learning do que na complexidade na implementação. Todas as features e parâmetros são definidos em um arquivo yaml e as chamadas são realizadas via terminal, algo realmente muito prático e rápido.

Logo após, Carlos Filho e Gustavo Castilhos apresentaram o framework open-source Noronha, que basicamente cria uma estrutura de DataOps de maneira muito simples sem a necessidade de alterar muito o fluxo de trabalho. Todo o nosso time ficou bem empolgado com a ferramenta/metodologia e pretendemos testá-las em breve para otimização dos nossos deploys.

Pelo Nubank, o Henrique Lopes apresentou um novo framework para machine learning, o fklearn, que utilizando as melhores práticas do paradigma funcional, facilita a construção, o deploy e a reprodutibilidade dos modelo. O mais interessante foi a simplicidade e a elegância na forma da construção do modelo, pois como se trata de uma paradigma funcional, o modo que se constrói a lógica é diferente do procedural e do OOP, vale a pena conferir.

No campo das redes neurais convolucionais, o Paulo Sampaio demonstrou uma solução otimizada utilizando esse tipo de rede com múltiplos classificadores para reduzir o uso de recursos e tempo de processamento através do uso compartilhado desses classificadores entre as camadas da rede.

A tarde o CEO do grupo ZAP, Lucas Vargas, fez uma apresentação muito interessante mostrando os desafios trilhados na tentativa de explicar os preços de imóveis e como se constrói uma lógica de precificação de imóvel. Embora o tipo de aplicação seja diferente da Cargo X, temos o desafio na precificação de rotas e fretes. O cenário logístico é extremamente complexo e precisamos considerar diversas variáveis. No final do talk, houve um anúncio de um desafio no kaggle com premiação de $100.000, isso mesmo jovens DÓLARES, onde todos ficaram bem ansiosos pelo lançamento.

A última palestra foi da pesquisadora da IBM, Bianca Zadrozny, falando sobre a aplicação de machine learning na indústria da mineração. O case demonstrado foi de uma mina de ouro no Canadá que, por meio de informações geológicas e utilizando um modelo de rede convolucional (3D Convolutional Neural Networks), foi possível estimar o potencial de mineralização de ouro, um trabalho bem legal e pioneiro na área de recursos naturais. Finalmente, o evento encerrou com um painel levantando discussões sobre interpretabilidade de modelos e como isso, muitas vezes, está diretamentamente relacionado a questões éticas nas decisões que são tomadas.

Time de Dados no último dia de PAPIs

De maneira geral, achamos que o PAPIs correspondeu às expectativas do time, e realmente introduziu um conjunto diversificado de alternativas e abordagens que podem ser úteis para nosso dia a dia aqui na Cargo X. É interessante perceber que muitas empresas estão diante de desafios similares e, que sempre podemos aprender com o sucesso ou mesmo o insucesso de alguma solução adotada.

--

--

Fernando Gama
CargoX Tecnologia

Data Scientist - MSc. Computer Science, Data Analytics, Machine Learning, Text Mining and Visualization