Por que sua empresa deveria utilizar Automated Machine Learning ?

Gustavo Bruschi
PowerOfData
Published in
6 min readAug 4, 2020
Fonte: https://www.analyticsinsight.net/understanding-the-treasures-behind-automated-machine-learning/

TL;DR: Esse post tem como objetivo apresentar as vantagens do Automated Machine Learning (AutoML) e demonstrar para o leitor que o treinamento de modelos, técnicas e algoritmos é a menor parte dentro de um projeto de Data Science, e é uma tarefa automatizável. Este artigo não aborda questões técnicas e pormenores sobre o funcionamento do AutoML, abordarei isso em um post futuramente, me concentrei exclusivamente em elencar suas vantagens.

Motivação

Com o avanço das pesquisas em Machine Learning e Deep Learning, temos novos papers sendo publicadas praticamente toda semana. Fica muito difícil para o profissional da área se atualizar, ainda mais com a infinidade de pré-prints publicados em espaços como o Arxiv.

Do ponto de vista de negócios, os avanços em áreas como crédito, cobrança, fraude, marketing, saúde, aviação, e outras, exige que o profissional de Ciência de Dados domine cada vez mais as áreas que atende para ter êxito em suas tarefas e ter soft skills como comunicação, senso de urgência, pensamento crítico, etc. Tudo isso em um ambiente que cada vez mais exige agilidade nos processos, reduzindo os prazos de entrega de todos esses avanços técnicos para os ambientes de produção.

O aumento da complexidade técnica dos assuntos somado a demanda por menor time-to-market requer profissionais cada vez mais especializados e com uma boa gestão do seu tempo, para poder realizar suas tarefas de maneira automática e rápida.

Uma maneira de facilitar esse cenário, é o cientista de dados automatizar o treinamento de modelos através do AutoML, enquanto pode alocar o restante do tempo em atividades como a problemas de negócio, interpretação e comunicação dos resultados, reprodutibilidade e replicabilidade e como colocar esses modelos em produção (deploy).

Por que adotar AutoML ? Vantagens Operacionais

O AutoML fornece meios para profissionais especialistas e não especialistas em Machine Learning se empoderarem desses algoritmos e tomar decisões de maneira orientada, objetiva, automatizada e o mais importante: baseada em dados.

Os sistemas de AutoML basicamente se alimentam de bases de dados voltadas para modelagem e treinam uma gama de técnicas, deixando ao profissional a escolha de implementar a que melhor o satisfaz. Isso pode ser visto como uma democratização do Machine Learning, pois técnicas de última geração estão ao alcance de todos, inclusive não-especialistas em modelagem.

Cabe ressaltar que em projetos de Machine Learning, é comum ver profissionais experientes focando apenas em treinar modelos e ignorando inúmeros aspectos, como: recrutamento de pessoas, custos de hardware e software, custo de horas trabalhadas, e principalmente o custo de oportunidade do projeto.

Sabendo disso existem outras tarefas importantíssimas (e árduas) para se atentar, como a extração e tratamento dos dados, e deploy do modelo. De tal maneira que o treinamento dos modelos é a menor parte dentro da complexidade que é um projeto de Data Science, conforme justificado em um famoso artigo escrito pelo time da Google em 2015.

Fonte: https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Outro ponto importantíssimo é a necessidade de Engenheiros de Dados e Cientistas de Dados atuarem em outro patamar, utilizando seu tempo para aprimorar o entendimento do negócio, construção de variáveis (feature engineering), como colocar isso em produção, explicabilidade e interpretabilidade dos modelos, análise causal dos resultados, etc. Só como exemplos de como os profissionais podem utilizar melhor seu tempo, ao invés de ajustar algoritmos e seus parâmetros, poder colocar um MVP em produção e melhorá-lo ao longo das iterações.

Fonte: https://academy.nobl.io/wp-content/uploads/2016/03/img-1.png

Para tornar todo esse pipeline mais fluído, as empresas devem incluir o AutoML na sua cultura analítica para acelerar as entregas e utilizar recursos valiosos como pessoas, tempo e dinheiro de maneira eficiente.

Em outro texto sobre vantagens do AutoML, o autor, que é um experiente engenheiro de ML afirma essa tecnologia empodera os colaboradores na capacidade de prosseguir (ou abandonar) projetos em iterações mais rápidas, e assim constrói um ambiente de maior confiança, e de quebra ajuda você e a sua organização a alocarem melhor os esforços, fortalecendo a cultura analítica na companhia.

Outras Vantagens do AutoML

As tecnologias de AutoML disponíveis no mercado geram baselines de modelos fortes em tempo recorde, à título de exemplo, uma competidora do Hackaton do Kaggle ficou em 8º lugar com um modelo treinado em apenas 100 minutos. Isso é possível porque essas soluções utilizam métodos de otimização de hiperparametros como GridSearch/RandomSearch/Otimização Bayesiana, o que refina a capacidade preditiva dos modelos ao otimizar a melhor acurácia possível.

Os recursos nas tecnologias de AutoML também permitem a reprodutibilidade e aumento da robustez metodológica do processo de modelagem, pois facilita o mapeamento do pipeline da jornada do dado dentro das etapas de DataPrep, FeatureSelection e das técnicas treinadas. Por essa razão, isso concede maior capacidade dos times identificarem condições latentes e falhas ativas em seus projetos e assim propor melhorias em ciclos mais rápidos.

Facilitar a vida de pessoas sem expertise em Machine Learning é outro golaço do AutoML, pois permite que pessoas sem bagagem técnica possam experimentar o estado da arte da área de maneira fácil e com pouco conhecimento em linguagens de programação.

Quando o AutoML não ajuda

Nem tudo são flores, e obviamente há situações em que é muito difícil utilizar uma solução automatizada. Essa discussão não é exclusiva do mercado de AutoML, outras indústrias instigadas por uma onda de automação pretendem compreender as mudanças na cultura de trabalho, e identificar tarefas com maior e menor grau de substituição por tecnologias no futuro.

Uma primeira limitação dessa tecnologia, diz respeito à disponibilidade e consistência dos dados, o que é a matéria-prima para operacionalizar qualquer tarefa que envolva Machine Learning. Em segundo lugar, está o conhecimento qualitativo de regras de negócio que pode ser incorporado nos modelos. E em terceiro lugar, o AutoML (ainda) não cobre problemas como Reinforcement Learning e Sistemas de Recomendação, uma vez que as tecnologias disponíveis envolvem apenas o aprendizado supervisionado.

Dessa forma, por enquanto, o ser humano será parte indispensável de todo o processo.

Algumas soluções disponíveis no mercado

Atualmente, muitos sistemas de AutoML já batem profissionais experts em modelagem, seja em time-to-market e capacidade preditiva dos modelos. E como resultado, há um grande interesse comercial de startups e grandes empresas de tecnologia criarem soluções com essa abordagem.

Importante notar que com o advento das tecnologias open source, empresas de todo o mundo se engajaram nessa empreitada, até mesmo companhias brasileiras, como nós da PowerOfData (merchan puro, clique para conhecer mais). Abaixo, listamos alguns dos principais produtos disponíveis no mercado e que tipo de funcionalidades seus sistemas englobam, seja AutoFeatureEngeneering (AutoFE), HyperParameter Optimization (HPO) e Neural Architeture Search (NAS):

Tabela 1: Ferramentas de AutoML disponíveis no Mercado

Obs: Não listei todas as soluções. Convido o leitor à me informar caso alguma ferramenta não conste na lista.

Considerações Finais

Presumo que se o leitor chegou até aqui, imagino que esteja interessado em conhecer mais sobre AutoML. Futuramente, escreverei mais sobre essa tecnologia fascinante, que utilizo no meu dia-a-dia como cientista de dados, gerando valor em diferentes áreas de negócios.

Esse é um dos primeiros artigos do time PowerOfData. Convido você a acompanhar os demais posts do time aqui no Medium, em nosso LinkedIn, e se quiser entrar em contato com nossa equipe.

Notas

--

--