[Data Science] Aplicando CRISP-DM em um projeto de dados

Edilson Silva
6 min readJul 13, 2023

--

CRISP-DM? O que é isso?

CRISP-DM (Cross Industry Standard Process for Data Mining — Processo Padrão Inter-Indústrias para Mineração de Dados), é um modelo de processo de mineração de dados, que descreve uma série de abordagens frequentemente utilizadas por especialistas para atacar problemas de Mineração de Dados.

Semelhantemente ao que fazem os frameworks da Engenharia de Software, o CRISP-DM visa facilitar o desenvolvimento de um projeto, porém, este sendo um projeto exclusivamente orientado a dados.

Com ele, teremos uma sequência de passos e “regras” bem definidos que nortearão todos os processos do projeto, indo da concepção até a entrega.

Passos do CRISP-MD.
Passos do CRISP-MD.

Passo a passo do CRISP-DM

1 — Entendimento do Negócio (Business Understanding)

Inicialmente é necessário ter um entendimento completo do negócio e isso se dá mediante conversas, questionários e análises com os stakeholders do projeto.

Tempo de duração: 1 a 2 semanas.

Exemplos de perguntas feitas nesta etapa:

> Qual problema resolveremos?

> Por que ele é importante?

> Atualmente já existe solução para este problema?

> Como a solução afetará a empresa?

> Qual o tempo estimado para desenvolver a solução?

> Como vamos medir a solução ou quais são os KPIs?

Principais Atividades:

> Estruturar equipe de desenvolvimento.

> Modelagem do problema através de reuniões com especialistas/consultores (Ponto Focal).

> Definição de ferramentas e KPIs (Key Performance Indicator — Indicador-Chave de Performance).

> Gestão de riscos, visando sanar diversas peguntas, como:

  • Os dados existem?
  • Como obteremos os dados?
  • Qual a sua disponibilidade?

> Definição de prazos baseados em alinhamento prévio com o cliente sobre novas ações a serem tomadas e que servem de base para o projeto, como:

  • Criação de um Data Lake.
  • Criação de um Banco de Dados.
  • Disponibilidade de ferramentas.

> Gerar checklist do negócio, ou seja, perguntas que facilitem o entendimento do negócio, como:

  • Área de atuação da empresa.
  • Objetivos de negócio.
  • Critério de sucesso do negócio.
  • Benefícios do projeto.
  • Plano de projeto.
  • Inventário de recursos.
  • Riscos de contingência.
  • Terminologias.
  • Custos do projeto.
  • Determinar objetivos de Mineração de Dados.
  • Critérios de sucesso da Mineração de Dados.
  • Acesso inicial a ferramentas.

Resultados:

Documentação de abertura do projeto com os pontos relevantes e um pleno entendimento do negócio e do objetivo do projeto.

2 — Entendimento dos dados (Data Understanding)

Fase de coleta e compreensão geral dos dados.

É nesta fase em que há reuniões de alinhamento com os profissionais de dados e os técnicos dá área, para facilitar o processo de obtenção dos dados.

Tempo de duração: 1 a 2 semanas.

Exemplos de perguntas feitas nesta etapa:

> Todos os dados estão disponíveis?

> Como os dados são armazenados?

> Quem ou quais sistemas produzem os dados?

> Quais os tipos de dados disponíveis?

> Qual a dificuldade para extrair os dados?

> Existem custos dos dados, seja referente a geração ou compra?

> Existem dados sensíveis e que precisam de uma tratativa diferenciada para não termos problemas com a LGPD?

> Existe alguma variável alvo no problema em questão?

Principais Atividades:

> Geração de relatório da coleta inicial de dados.

> Geração de relatório de dados, com descrição, termos específicos, palavras-chave, tipos de dados, valores padrões, limites de valores, etc.

> Análise exploratória na base de dados.

> Verificação de qualidade dos dados.

> Compreenasão de padrões e formatos de dados.

Resultados:

Glossário e repositórios de dados brutos (RAW data).

3 — Preparação dos dados (Data Preparation)

É aqui onde a mágica acontece, onde os dados são devidamente manuseados.

Esta etapa visa aumentar a qualidade dos dados, através dos diversos métodos de tratamento/preparação e abordagens estatísticas.

Tempo de duração: 3 a 9 semanas.

Exemplos de perguntas feitas nesta etapa:

> Como os dados serão processados?

> Qual pipeline ideal para os dados?

> Como iremos lidar com dados ausentes?

> Quais os valores máximo e mínimo para determinados conjuntos?

Principais Atividades:

> Seleção de subconjunto de dados.

> Adição ou exclusão.

> Derivação de dados (Criação de dados com base em dados existentes).

> Geração de dados artificiais.

> Limpeza de dados.

> Normalização (Normalization).

> Padronização (Standardization).

> Integração de N fontes de dados (Merge).

> Geração de relatório descrevendo os dados (Visualização).

Resultados:

Repositório com os dados limpos, organizados e padronizados em um formato propício para a fase de modelagem.

4 — Modelagem (Modeling)

É aqui onde entra a “mão na massa” quando se fala de Machine Learning.

São aplicadas diversas técnicas e gerados uma série de modelos para testes e obtenção de métricas sobre os dados preparados na fase anterior.

Estes modelos são treinados e testados constantemente para avaliarmos suas capacidades de predição.

Há também fases de otimizações (tunning) dos parâmetros dos modelos, a fim de obter resultados mais válidos e acurados (alta taxa de acertos).

Tempo de duração: 1 a 2 semanas.

Exemplos de perguntas feitas nesta etapa:

> Quais algoritmos podem resolver o problema?

> Quanto tempo durará o treinamento destes algoritmos?

Principais Atividades:

> Selecionar modelos que atendem a proposta (SVM, KNN, Decision Tree, etc.).

> Gerar suposições de modelagem.

> Divisão de dados para treino e teste.

> Criar modelos.

> Treinar modelos.

> Otimização de parâmetros dos algoritmos (Tunning).

> Gerar descrição do modelo.

Resultados:

Modelo, métricas de performance e documento descritivo do modelo.

5 — Avaliação (Evaluation)

É uma avaliação feita por um especialista do negócio para checar se todos os requisitos previamente definidos foram atendidos com o resultado obtido pela equipe técnica.

Geralmente é realizada exclusivamente pelo especialista, porém em alguns casos onde há um certo grau de especialização no domínio do negócio por parte da equipe técnica, ela pode se juntar ao especialista para conduzir esta avaliação.

Tempo de duração: 1 semana.

Exemplos de perguntas feitas nesta etapa:

> Os resultados obtidos foram satisfatórios?

> O modelo proposto resolve de fato o problema?

> A relação entre as variáveis X e Y dão-se devido a quê?

Principais Atividades:

> Avaliação do modelo mediante métricas genéricas, tais como: erro de predição do modelo, qualidade dos dados, etc.

> Avaliação do modelo mediante métricas especificadas pelo cliente, tais como: determinado percentual de acerto mínimo, tempo de resposta, etc.

> Validação se os critérios de sucesso do negócio foram atingidos.

> Revisão geral de processos.

> Determinar próximos passos a serem executados.

Resultados:

Satisfatório: O modelo estará pronto para ser implantado em produção via protótipo.

Não satisfatório: Volta-se para a etapa de entendimento do negócio.

6 — Implantação (Deployment)

Fase final do projeto, onde o mesmo é implantado em produção através de um protótipo.

O artefato resultante do projeto pode ser um produto, modelo, painel de analytics, aplicativo, website, etc.

Obs: É necessário acompanhar o desempenho do produto entregue por um determinado período alinhado com o especialista, visando identificar problemas e/ou pontos de melhoria que possam ser aplicados.

Tempo de duração: Determinado com base em alinhamento com o cliente.

Exemplos de perguntas feitas nesta etapa:

> Geração do plano de deploy.

> Planejamento de monitoramento.

> Planejamento de manutenção.

> Geração de relatório de entrega.

> Geração de apresentação do projeto.

> Revisão do projeto.

Resultados:

Artefato final disponível e acessível ao público alvo.

Conclusão

Agora que você conhece o funcionamento do CRISP-DM e entendeu que ele se encaixa perfeitamente em um projeto de dados, espero que o utilize com sabedoria.

Lembre-se que, mais importante do que seguir uma metodologia/framework na condução de um projeto é entendê-lo e adequá-lo a sua realidade e necessidades, pois, eles são apenas guias que facilitarão sua vida.

Depois de tudo isso, acredito não haver mais desculpas para conduzir um projeto orientado a dados desorganizado, não é mesmo?

Instagram do projeto DataDevTips: https://www.instagram.com/datadevtips/

--

--