Gerenciando e planejando meu primeiro Machine Learning

Um guia rápido de técnicas para a organização do seu projeto voltado à negócios

Nayane Maia
neurondsai
7 min readApr 12, 2021

--

Todo mundo que começou a trabalhar com ciência de dados já pegou um banco de dados e não teve a menor ideia por onde começar. Quando não se tem planejamento, o processo comum a ser seguido é entrar diretamente no machine learning (ML), faz o projeto do jeito que dá, se deu certo ok, se o prazo acabou entrega assim mesmo, seguindo a ordem de ação:

Fonte: AI Girls

Para que isso não ocorra, vamos aprender a gerenciar e planejar todas as etapas de um projeto de ML usando técnicas de gerenciamento estruturadas. Essas técnicas são muito utilizadas por empresas e por times de data science, para que o time saiba por onde começar e onde chegar (objetivo final). Agora vamos entender a principal metodologia usada em bancos de dados:

CRISP-DM (Cross Industry Standard Process for Data Mining)

É uma técnica padrão usada na mineração de dados, geralmente projetos que são bem gerenciados em empresas usam o CRISP-DM. Alguns autores já citaram que pode ser encurtado e pulado alguns passos, mas o objetivo final sempre vai ser o mesmo. Essa técnica é facilmente aplicada à negócios e não é necessário nenhuma ferramenta para entrar em ação, o que permite que um projeto seja refinado e modificado para os mais diversos fins. Como visto na figura a seguir:

Fonte: Manual Prático de Data Science, Mario Filho (2020)

Agora vamos entender as etapas dessa metodologia:

Passo 1- Garantir a qualidade dos dados: A parte mais importante na ciência de dados são os dados! Por isso alguns cuidados devem ser tomados na aquisição e organização dos dados, sempre se certificando que os dados são de qualidade e boa procedência. Nessa etapa vamos definir a qualidade dos dados através de análises descritivas, minimizar os valores faltantes, inválidos e outliers, pois isso levará a uma baixa precisão durante a modelagem. Como adquirir dados através de raspagem na web e limpar dados faltantes eu detalhei nesse artigo.

Passo 2- Compreensão voltada à negócios: Após adquirir os seus dados e verificar a sua confiabilidade, precisamos entender o negócio, o objetivo final do seu projeto ou da empresa quando cabível (geralmente são voltados para lucros e benefícios a curto prazo). Nessa etapa vamos definir os problemas que podem ser resolvidos com o seu banco de dados. Vamos começar nos perguntando, qual o objetivo e quais são as dificuldades do negócio que eu quero resolver??

No seu estudo inicial em ML, você ja deve ter se deparado com aquela pergunta para classificação de dados: “esta imagem é gato ou cachorro??”. Essa pergunta ocorre, porque saber o objetivo final é sempre um passo muito importante! Portanto, as perguntas voltadas para negócios podem ser as mais diversas, a fim de responder a missão, valores e visão da empresa, como, por exemplo:

  • Qual a previsão de preço do produto X? Qual será o lucro da empresa a curto e longo prazo?
  • Quem compra mais o meu produto?
  • Qual o objetivo do meu projeto ou da empresa para qual trabalho?
  • Como posso prever a produtividade da soja?
  • Como posso estimar estoque de carbono?

Passo 3- Compreensão dos dados: Agora que sabemos qual os nossos problemas e objetivos, vamos entender melhor os nossos dados! Nessa etapa vamos usar análises exploratórias e visualização de dados para definir quais são as variavéis importantes, e como elas se comportam. Este processo é muito importante, pois pode economizar seu tempo ao descobrir o padrão óbvio dos dados, permitindo que você veja a correlação entre as variáveis. Nessa etapa podemos usar os mais diversos pacotes/bibliotecas de análises e gráficos para ir testando o padrão do nosso banco de dados.

venngage

Passo 4 - Preparação de dados: Nesse passo vamos tratar os dados e realizar o data mining, essa é a fase que demanda um pouco mais de tempo e atenção.

  • Como já realizamos no passo 1 uma boa parte dessa etapa, agora vamos filtrar os dados irrelevantes que notamos durante a análise exploratória, e vamos definir quais as nossas variavéis importantes.
  • Nessa etapa podemos até mesmo construir dados: derivar novos atributos que serão úteis (por exemplo, dias da semana, gênero, e novas codificações).
  • Definir as variaveis dependentes e independentes dos modelos.

Passo 5- Modelagem: Após identificar as variavéis númericas e categóricas do nosso banco de dados, agora vamos definir os algoritmos (vou usar o Supervisionado ou Não Supervisionado?).

Precisamos responder: Qual o melhor modelo para o meu objetivo de negócio? Qual (ou quais) vai ser capaz de responder as minhas dúvidas de negócio? Essa é uma etapa que exije um pouco de estudo, pois precisamos entender um pouco de cada modelo e qual a sua importância. Vamos lembrar do exemplo da pergunta inicial: “esta imagem é gato ou cachorro?”, para responder essa pergunta podemos usar um Multilayer perceptron (MLP), como no exemplo a seguir:

Nessa etapa é costume escolher mais de um modelo para testar seu desempenho e seu resultado esperado, baseando-se na sua precisão e acurácia. Aqui também é importante tomar cuidados com os hiperparâmetros e tunar os seus modelos, para cada modelo é necessário realizar essa etapa de forma diferente para que o seu modelo seja mais consistente, além disso esses parâmetros variam de acordo com o algoritmo. Realizar etapas de crossvalidation ou k-fold também é um passo importante, mesmo que demore um pouco mais para rodar e testar o seu modelo.

Passo 6- Avaliação: Esse é um passo super importante para responder os seus objetivos, pode ser avalido por meio da precissão (R2), erro quadrático médio (MSE), tendência (SE), matriz de confusão, entre outros. O importante notar aqui, é que: se sua precisão for ruim, você precisa voltar aos passos iniciais e verificar seus dados (entender ele melhor, entender seu objetivo) ou verificar se a modelagem dos dados está sendo executada corretamente.

Visto pelo ponto dos negócios, pode ser que sua pergunta seja respondida ou não. Caso o modelo não está performando como esperado, devemos retomar a segunda etapa para entender os objetivos de negócios e os dados.

Caso seu modelo tenha perfomado como esperado, o uso de metodologia Agile ou de Design Thinking pode ser utilizado no seu projeto, a fim de chegar a um objetivo específico de forma mais rápida e assertiva.

Passo 7- Implantação: Nessa etapa você está pronto para implantar o seu modelo para ser usado pelo público ou pela empresa, nessa fase mostramos os insights para os lideres da empresa, as ideias de negócios que tivemos, o que pode ou não ser lucrativo, e quais as principais mudanças a curto e a longo prazo fazendo uso desses insights.

E agora?

A partir de agora vamos implementar essa metodologia nos nossos projetos de ML, e vamos parar de fazer “o que dá e segue o baile”. Precisamos ter objetivos claros e opniões de negócios formadas, e um conhecimento mínimo da área a qual estamos executando o banco de dados (precisamos entender o contexto), e principalmente, as perguntas de negócios precisam fazer sentido!

Antes de finalizar esse artigo eu quero mostrar outras técnicas interessantes que vem sendo utilizadas por empresas, como o uso do CANVA ML. Ele fornece uma visão geral desse objeto complexo que é um Modelo de Negócios usando ML, além de facilitar a colaboração dentro do time. Funcionando dessa forma:

  • Objetivo: O que? Porque? Quem? Como?
canva ML
  • Também existem outras metodologias importantes de planejamento e organização para você dar uma olhadinha, como o SEMMA e KDD.
  • E uma aulinha online de CRISP-DM: ciência de dados além dos códigos.

Agora foco no seu projeto voltado à negócios, porque é hora de fazer diferente heim com todas essas dicas! Em caso de dúvidas ou sugestão, estou aberta para conexões no LinkedIn.

--

--

Nayane Maia
neurondsai

Agronomist and Data Scientist, with the application of advanced statistical modeling techniques in agriculture