Pontos de atenção na implantação da infraestrutura de dados em projetos de Machine Learning

Davi Colombo
Datarisk.io
Published in
5 min readNov 10, 2021

Utilizar dados e técnicas de Machine Learning para aumentar a produtividade das empresas, embasando suas decisões de negócio a partir dos resultados e recomendações dos modelos!

Esta simples frase é o Santo Graal de boa parte das empresas querem implementar ou aprimorar uma cultura Data Driven . Porém, quero destacar este trecho com uma nova interpretação: “… decisões de negócio a partir de critérios dos modelos, levando em conta as estruturas de dados, de processos e tecnologia”.

A figura acima ilustra (de forma muito simples) um processo “ Data Driven”, o qual conta com dados e uma solução de Machine Learning para otimizar o processo e / ou diminuir custos e / ou aumentar a receita. Assim como acontece na vida real, o “ppt” sempre parece bem simples.

O objetivo deste artigo é levantar questões importantes para o trecho destacado no primeiro parágrafo do texto e apontar algumas soluções que tornem possível a antecipação de problemas que podem surgir ao longo da implantação.

Ambiente de Implantação x Ambiente de Experimentação x Ambiente de Armazenamento dos Dados

É razoável supormos que, para atingir os objetivos da primeira frase do texto, o primeiro passo é armazenar dados correspondentes (ou auxiliares) aos negócios específicos. Porém, plugar soluções que de fato utilizam informações, muitas vezes em processos e ambientes apartados, é mais complexo.

Para que as empresas articularem esse processo, os desafios tecnológicos são mais importantes, pois apresentam questões de Data Science. Sendo assim, criar e testar novos ambientes que mudarão seus caminhos e produtos envolvem muitas outras etapas.

No caso de empresas que já possuem estruturas de armazenamento e uso de dados, também há desafios e oportunidades. Neste cenário, implantar e utilizar modelos pela primeira vez (ou substituir outros) apresentará situações novas. Eis alguns exemplos:

  • Novos ambiente / processos de uso do algoritmo de Machine Learning plugados nas decisões de negócio;
  • Implementar e usar novas informações que trarão valor ao negócio;
  • Possivelmente otimizar a captura e armazenamento dos dados atuais.

Administrar e otimizar ambientes para cada uma das etapas dos processos de uso de dados (armazenamento, experimentação e implantação) torna-se essencial para que o valor a partir deles seja de fato usado.

Data Science, Tecnologia e Negócios: Uma Sinergia Necessária

Estas três áreas citadas acima são partes fundamentais no processo de desenvolvimento e implantação das soluções de Machine Learning, principalmente nas etapas iniciais dos projetos. Nas interações abaixo, alguns exemplos de atividades, processos e decisões que podem ser realizados em conjunto:

  • Data Science + Tecnologia + Negócios : alinhadas quanto aos objetivos finais da companhia, direcionando suas atividades para os objetivos macro predeterminados (aumento de receita, otimização de processos, etc). Como sugestão, algumas metas em um nível mais macro podem ser compartilhadas entre essas áreas;
  • Data Science + Tecnologia: aspectos tecnológicos do projeto: dados, ambientes informacionais (experimentação, desenvolvimento e implantação) e viabilidade de soluções desenvolvidas pelo time de Data Science;
  • Data Science + Negócios : alinhamento sobre o problema a ser resolvido, orientação sobre os processos atuais e expectativas de ganhos a partir do uso do modelo. Combinar conceitos de negócio por meio de dados que serão usados ​​no desenvolvimento do projeto, tais como: informações utilizadas, desenho da amostra e definição da resposta (se houver). Por fim, as análises e pesquisas a serem entregues pela área de Data Science - para tomar uma decisão sobre a viabilidade técnica e negócio. Com essas informações levantadas, o passo final é seguir com a implantação da solução.

Periodicidade das Informações

Levar em conta, no desenvolvimento dos modelos estatísticos, a periodicidade e disponibilidade das informações quando estas são armazenadas nos bancos de dados é fundamental. Quando é feita uma extração histórica de uma amostra de dados para uma etapa de construção do modelo, é imprescindível considerar "como e quando" é feita a captura e armazenamento dos dados (tempo real, d + 1, d + 2, fechamento do mês , próximo dia útil, etc).

Com base nesta informação, os dados devem ser utilizados no modelo levando em conta os processos (dados disponíveis + modelo rodando + tomada de decisão do negócio) que devem funcionar na vida real. Vale frisar, também, que sempre devemos realizar um double-check com os times responsáveis ​​de TI e checar ao longo do histórico se os dados são armazenados de fato nas periodicidades anteriores.

Construções de Variáveis ​​na Implantação

Uma das formas mais importantes (e difíceis) de turbinar os modelos é construir novas variáveis ​​a partir da amostra original de dados . Suponha um exemplo simples, onde não se qualifica os dados transacionais de cartão de crédito para estimativa de renda, os dados da variável “valor de fatura” foram extraídos conforme abaixo:

Utilizar o valor da fatura parece intuitivo para explicar, por exemplo, renda, construindo uma série de novas variáveis ​​a partir dos valores mês a mês: informações de tendência, média, mínimo, mínimo e muitos outros. Além de suavizar os efeitos outliers , podemos adicionar várias possibilidades para o conjunto de variáveis ​​disponíveis. Uma vez que oferece mais possibilidades de explicação para o modelo a ser construído.

O ponto central é garantir que essas construções de variáveis ​​sejam possíveis na implantação e uso do modelo. É muito comum (e natural) que as variáveis ​​que foram construídas pelo time de Data Science “codificadas” (durante a construção dos modelos) em uma linguagem diferente no que diz respeito às utilizadas pelas equipes de implantação e uso dos modelos. Torna-se, portanto, fundamental a sinergia entre os times, principalmente no início dos projetos. Assim, todas as áreas envolvidas ficam cientes das necessidades, principalmente aquelas ligadas ao uso e implantação dos modelos.

Conclusão

Neste artigo, discutimos algumas questões relacionadas à implantação de soluções de Machine Learning. Dessa maneira, torna-se essencial uma sinergia entre as áreas, bem como mapear os riscos e necessidade antes de iniciar o desenvolvimento das soluções em si.

Quer saber mais sobre o assunto ou descobrir como a Datarisk pode te ajudar nessas questões? Acesse o nosso site e não deixe de conferir nossos outros posts.

--

--