Gerenciamento de Projetos de Data Science com CRISP

Conheça a metodologia mais utilizada para Projetos de Ciência de Dados

Arthur Lamblet Vaz
Data Hackers
6 min readMay 25, 2018

--

“A flatlay with a laptop, a notepad, a smartphone and a mug of coffee” by Andrew Neel on Unsplash

Muito se fala sobre Big Data, Inteligência Artificial, Deep Learning, Data Mining, Machine Learning… entretanto pouco se sabe a respeito. As empresas começaram uma corrida contra o tempo para surfar essa onda, só que elas mal sabem como usar e os reais benefícios.

Mas o que é Data Science?

Inteligência Artificial é a bola da vez, junto com Deep learning. Mas para muitos essas nomenclaturas são desconhecidas, logo vou tentar explicar de maneira simples objetiva o que cada um significa.

Vamos começar com o mais amplo dos significados que é o da Inteligência Artificial.

Qualquer técnica computacional que a máquina copia a inteligência humana em qualquer nível pode se chamar de inteligência artificial.

Machine Learning é um subconjunto de IA, faz uso de técnicas estatísticas para melhorar o resultado do modelo.

Por fim, Deep Learning é uma área onde se estuda o reconhecimento de voz, imagens, vídeos.. através de redes neurais de diversas complexidades.

Os tipos de Analytics

Todo o grupo de IA precisa de algum tipo de análise de diverso grau de complexidade e diferentes objetivos. Para facilitar, são separados em grupos que são identificados como

  • Descritiva,
  • Diagnostica,
  • Preditiva,
  • Prescritiva.

Abaixo, segue um quadro auto explicativo para auxiliar o entendimento deste assunto.

Como gerenciar projetos de Data Science?

Histórico

Antes de entrar na metodologia escolhida é válido fazer um apanhado histórico.

Começaram a discutir e falar sobre DSP (Data Science Projects) em 1993 com processos de KKD ( Knowledge Discovery Database), a partir dele foram desenvolvidos alguns processos e metodologias.

Mesmo nessa época, afirmavam que, em 1989, já existiam 5 milhões de base de dados pelo mundo!

Abaixo mostra uma evolutiva dos processos e metodologias criados ao longo dos anos.

Vale ressaltar que o KKD não chega a ser uma metodologia por não definir como se desenvolver cada etapa estabelecidas nele.

Na tabela abaixo, podemos perceber a diferença e números de etapas de cada processos e metodologias descritos acima.

Uma pesquisa publicada pela KDnugget revela a grande preferência do uso da metodologia CRIPS-DM. Mesmo em um período de 7 anos, CRISP-DM mostrou que é a primeira opção para a maioria dos entrevistados.

Em seguida, será descrito como funciona a metodologia CRISP, mesmo que alguns autores prefiram modelos de processos de Engenharia de Software tais como padrões IEEE 1074 e ISO 12207.

O Modelo CRISP — DM (Cross Industry Standard Process for Data Mining)

Para melhorar o entendimento e a visualização de como funciona esse método, será descrito abaixo cada etapa:

Entendimento do negócio:

  • A parte inicial devemos identificar o tema a ser abordado e fazer um apanhado bibliográfico sobre o assunto para que em seguida possa estudar o processo do mesmo usado na empresa (caso haja). Depois de feito o estudo bibliográfico, deve-se sentar com um grupo de especialistas e pedir para que eles descreverem o processo e possíveis melhorias que seriam de agrado. Essas 3 frentes distintas ajudará o entendimento além de propor melhorias caso seja relevante.

Provavelmente você irar tratar com um especialista que não conhece muito sobre ciência dos dados, por isso é importante manter a didática e ser claro com o que precisa.

Perguntas que devem ser respondidas:

Qual o problema que queremos resolver?

Por que ele é importante?

Dada uma solução hipotética para esse problema, como isso afetaria a empresa?

Já temos a capacidade de agir com base nessa solução, ou também precisamos desenvolver essa habilidade?

Como vamos medir a solução implementada? (KPIs) O que faria dela um sucesso?

Estudo bibliográfico geral — >Estudo do processo na empresa — >Ouvir os especialistas — >Concluir o entendimento do negócio com ou sem sugestão de melhoria

Entendimento dos dados:

  • Depois de ter realizado o entendimento do negócio, devemos agora arquitetar e estudar qual será a melhor forma de extrair as informações. A origem de cada conteúdo e softwares, deverão ser mapeados, revisão dos dados devem ser feita, já que existe a possibilidade das informações não estarem consistente além de identificar possíveis anomalias e outliers. O processo de extração deverá ser definido com toda a equipe onde áreas e pessoas deverão ser envolvidas e mapeadas para a função. Além disso, formatos de arquivos e variáveis serão pré-definidos para evitar inconsistência e por fim, desenvolver o gerenciamento de risco desta etapa.

Quais perguntas que devem ser respondidas:

Os dados estão disponíveis ?

Qual a dificuldade para extrair os dados ? Essa ação é permitida ?

Custo dos dados: comprar ? Gerar ? Análise de custo x benefício

Definição da variável alvo (supervisionado) ou não (não supervisionado)

Preparação dos dados:

  • Nessa etapa deveremos tratar os dados, realizar data mining. Certificar que as informações estão de acordo com o esperado, consistência de erros e ausência de valores deverão ser resolvidos nesta etapa para que possa selecionar amostras aleatórias para treinos e testes. Definir métodos de avaliação de desempenho dos modelos deverão ser feitos nesta etapa para que na próxima possa avaliar o desempenho dos modelos testados antes mesmo avaliar junto com a os especialistas de negócio o resultado do modelo final.

Modelar:

  • Escolher as técnicas a serem usadas, rodar em uma base exemplo para depois passar para uma base protótipo que pode ser uma amostra dos dados a serem utilizados no modelo real. É de bom costume escolher mais de um modelo para que possa medir seu desempenho de performance computacional e resultado esperado (ex: acuracidade). Caso não seja muito demorado poderá escolher um crossvalidation diferente para treinar seus modelos.

Avaliação:

  • Agora, junto com um especialista técnico deverão analisar os resultados e levantar todas as possibilidades de variações que os dados podem ter, testando assim a resposta do modelo. Caso o modelo não está performando como esperado, devemos retomar a primeira etapa para entender o negócios e os dados.

Produção:

  • Neste estágio o modelo é enviado para produção e implementado em um protótipo. É necessário acompanhar a performance do modelo em um período alinhado com o especialista, caso haja algum problema ou oportunidades de melhoria. Depois desse período que pode levar cerca de 3 meses à 2 anos, dependendo do impacto do projeto, o modelo volta para produção e é aplicado em um cluster similar de dados em um período menor para em seguida ser implementado com todos os casos.

Cada projeto tem seu tempo particular de duração, abaixo segue exemplo de um projeto de dados simples que não precisou de Back — Forward (loop) em nenhuma etapa.

O mais importante é possuir as etapas bem definidas para que possa ser claro as entregas que serão feitas.

E quanto maior o número de entregas, melhor vai ser o andamento do projeto. Consecutivamente os erros serão em etapas recentes e em menores blocos, sendo assim mais fácil de serem identificados e corrigidos.

Considerações

Você será um profissional de sucesso se for capaz de formular bem os problemas, fazer rapidamente protótipos de soluções. Além de que, suposições razoáveis diante de problemas mal estruturados, projetar experimentos que representem bons investimentos e analisar resultados fazem parte do pacote de requisitos para o projeto ter sucesso.

FONTES:

https://www.amazon.com.br/Data-Science-Business-Data-Analytic-Thinking/dp/1449361323

--

--

Arthur Lamblet Vaz
Data Hackers

Surfista, natureba e engenheiro de produção com ênfase em Data Science🌱🌍♻️