Automated Machine Learning (AutoML): Aspectos práticos, teóricos, vantagens e limitações

Flávio Clésio
Data Hackers
Published in
4 min readJun 7, 2020

--

Photo by Kimberly Farmer on Unsplash

TL;DR: Esse post tem como objetivo alguns aspectos práticos e teóricos sobre o AutoML e discutir algumas potencialidades e limitações. Se o leitor quiser apenas o código, este repositório tem algumas implementações que usa AutoML para tarefas de classificação e regressão.

Este artigo é baseado principalmente em “Automated Machine Learning Methods, Systems, Challenges” de Frank Hutter, Lars Kotthoff e Joaquin Vanschoren, que segue a licença CC BY 4.0 e está de graça no site da editora Springer. Como este artigo é uma simplificação, é fortemente recomendado ler a fonte original.

Agradecimentos especiais a Adamastor pela revisão e edição do artigo.

Introdução

Com o avanço de disciplinas como Machine Learning e Deep Learning, inúmeros materiais novos são escritos sobre diversos assuntos: Natural Language Processing, Sistemas de Recomendação, Visão Computacional, Algoritmos de Otimização, Natural Language Understanding, Aprendizado por Reforço, Generative Adversarial Networks (GANs), etc.

Dentro dessa pletora de novidades, torna-se cada vez mais difícil manter-se atualizado(a) de todos os avanços e especificidades na àrea; ainda mais com o tsunami diário de pre-prints.

Isto sem falar do conhecimento de domínio de negócio que um engenheiro de machine learning ou cientista de dados deve ter para executar bem as suas tarefas. Tudo isso em um ambiente cada vez mais ágil que reduz cada vez mais o prazo de entrega destas novidades para os ambientes de produção.

Com esse aumento da complexidade está cada dia mais difícil ter um alto grau de especialização em relação ao treinamento de modelos de ML. Fica claro que profissionais de dados precisam realizar um bom gerenciamento do tempo e automatizar o máximo de tarefas possível.

E é neste cenário que o AutoML entra para ajudar nessa busca do modelo ideal de ML com uma abordagem orientada a dados, objetiva, sistemática e automatizada.

Em relação à esta automação, eu gosto muito do argumento [N1] no qual o cientista de dado seria como um(a) chef de cozinha, em que partes do seu trabalho seriam totalmente automatizadas via a utilização de utensílios como as tarefas de moer, cortar, triturar, bater, ou misturar ingredientes. O ponto principal é que ao invés de ter um foco nestas tarefas (i.e. em que os utensílios executariam as tarefas de forma mais uniforme e rápida) o chef nesse caso focaria no prato em si (i.e. no tempo de entrega do prato, textura, sabor final, redução de pressão na cozinha, etc).

Saindo do mundo gastronomico e indo para a realidade de ciência de dados e machine learning, o AutoML entraria para automatizar o treinamento de modelos, liberando tempo para o cientista de dados foque em aspectos como a a definição do problema, agregar conhecimento de domínio no problema, interpretação e comunicação dos resultados, reproducibilidade, replicabilidade e como colocar esses modelos em produção.

Ao longo deste ensaio, vamos pincelar alguns aspectos e técnicas de AutoML, suas vantagens e limitações, como também alguns cenários de implementação.

Na Parte I vamos comentar sobre qual é graça do AutoML em que vamos falar sobre alguns casos de uso e do porque o AutoML não vem para acabar com a profissão de Cientista de Dados.

Na Parte II vamos entrar um pouco mais no aspecto técnico do AutoML em que vamos falar de maneira geral sobre algumas das suas técnicas.

Por fim, na Parte III vamos colocar alguns pontos relativos às limitações do AutoML.

Links:

Parte I — Qual é a graça do AutoML?

Parte II — O que é AutoML?

Parte III — Limitações do AutoML

Referências

Livros

Papers

Ferramentas

Artigos e blogposts

Conferências e grupos de pesquisa

Notas

[N1] — Por mais que o autor do argumento tenha sido pego em situação de plágio (ler mais aqui, aqui, aqui, e aqui), eu citei (e estou fazendo a referência) apenas pela simplicidade da analogia.

--

--

Flávio Clésio
Data Hackers

Father, Son, Brazilian, Machine Learning Engineer, Traveler, Blogger, and Smooth Operator @ flavioclesio.com