Você tem os dados … Tem o problema de negócio… Mas e agora? O que fazer?
Assim como a ciência tem o método científico, a mineração de dados tem o método CRISP.
O cientista de dados não é “apenas” o profissional que se utiliza de ferramentas tecnológicas para tirar respostas dos dados. O seu diferencial está no pensamento analítico, na sua essência investigativa de resolver o problema.
Assim como para se obter veracidade numa descoberta se utilizada o método científico, que se divide em 4 etapas que é:
- Observação do método
- Formulação de hipóteses
- Realização do experimento
- Aceitação ou rejeição da hipótese formulada
A mineração de dados, que nada mais é o processo de encontrar padrões, anomalias e correlações em grandes conjuntos de dados para prever resultados, sendo realizado pelo cientista de dados, também se utiliza de um Método, chamado CRISP, para obter veracidade na sua resolução do problema de negócio.
MÉTODO CRISP
O QUE É?
É o processo de Mineração de Dados. Basicamente é uma metodologia com etapas que fornece uma orientação de um processo de modelo genérico de projeto de mineração de dados de grande sucesso.
Esse processo não é linear e sim um circuito investigativo e exploratório, em cada ciclo os cientista de dados serão capazes de formular bem os problemas, fazer rapidamente protótipos de soluções, fazer suposições razoáveis diante de problemas mal estruturas, projetar experimentos que representem bons investimentos e analisar os resultados.
COMO FUNCIONA?
O CRISP divide o ciclo de vida de um projeto de mineração de dados em 6 etapas:
1. Entendimento de Negócio
Determine os objetivos de negócios
Avalie a situação
Determine as metas de mineração de dados
Produzir um plano de projeto
Nessa fase é importante entender esses objetivos com clareza, com isso, converter esse entendimento em uma definição de problema de mineração de dados. Para em seguida, elaborar um plano preliminar onde é possível entender quais dados devem ser analisados para tal resolução do problema.
2. Compreensão dos dados
Colete os dados iniciais
Descreva os dados
Explorar os dados
Verificar a qualidade dos dados
É a fase onde devemos olhar para os dados, podendo descobrir insights iniciais sobre eles ou/e podendo até formular hipóteses do negócio com esses dados.
3. Preparação dos dados
Selecionar dados
Limpar dados
Construir dados
Integrar dados
Formatar dados
A partir dos dados brutos coletados, é nessa fase que iremos construir o conjunto de dados finais de interesse ou os dados que iremos utilizar para a modelagem.
4. Modelagem
Selecione a técnica de modelagem
Gerar projeto de teste
Construir o modelo
Avalie o modelo
Quando para construir a solução do problema é necessária a modelagem dos dados, entramos nessa etapa do CRISP. Nesta fase, serão selecionadas e aplicadas várias técnicas de modelagem onde os parâmetros são calibrados para valores ótimos. Aqui sabemos, que algumas técnicas de modelagem têm requisitos específicos sobre a forma de dados, ou seja, voltar na fase de preparação torna-se necessária.
5. Avaliação
Avaliar resultados
Processo de revisão
Determinar os próximos passos
Antes de finalizar, é necessário avaliar a modelagem dos dados, revisando a construção do modela para ter certeza de que ele atinge veridicamente os objetivos do negócio. Avaliar aqui se alguma questão comercial importante para solução foi de fato considerado. O líder do projeto, irá decidir em como usar os resultados obtidos na mineração dos dados.
6. Implantação
Planejar a implantação
Plano de monitoramento e manutenção
Produzir relatório final
Revisar Projeto
Nesta fase final do projeto, é onde devemos focar na apresentação de tais resoluções para o cliente. Nesta fase, o storytelling é muito importante.
O método CRISP não é um manual de instrução mágico onde os inexperientes seguem para que se tenha sucesso na mineração de dados.
E sim, ele combinado com bastante treinamento em metodologia, as técnicas, e claro, orientação dos profissionais experientes, torna-se uma valiosa ferramenta que ajudará os novatos a conseguir realizar e entender as etapas do processo de mineração de dados para a resolução de problema de negócio.
Resources:
- Artigo: https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf
- Livro: Data Science para Negócio.