Ciclo de vida dos dados #3

SEMMA

Karina Moura
2 min readFeb 2, 2019

Encerrei recentemente meu Trabalho de Conclusão de Curso que teve por objetivo a compreensão dos métodos utilizados para extração de conhecimento a partir dos dados. Seguindo com a série de posts que apresentam um resumo dos métodos estudados.

Hoje falarei sobre o SEMMA.

SEMMA é um acrônimo para as palavras Sample, Explore, Modify, Model e Assess. A SEMMA foi definida pela empresa SAS como uma organização lógica para o uso da ferramenta de mineração de dados desenvolvida por eles, a SAS Enterprise Miner.

“SEMMA is not a data mining methodology but rather a logical organization of the functional tool set of SAS Enterprise Miner for carrying out the core tasks of data mining. Enterprise Miner can be used as part of any iterative data mining methodology adopted by the client.” SAS (2006)

A seguir, uma breve descrição dos passos lógicos:

1. Amostra (Sample): esta etapa consiste na separação de uma amostra significativa o suficiente para extrair a informação necessária em cima da análise destes dados. As amostras podem ser usadas em momentos diferentes do processo: treinamento dos dados, validação dos dados e realização de testes.

2. Explorar (Explore): esta etapa consiste na em buscar tendências e anomalias nos dados através de recursos gráficos e estatísticos.

3. Modificar (Modify): esta etapa consiste na transformação e preparação dos dados para aplicação dos modelos de extração de conhecimento. Incluindo tarefas como limpeza, agrupamentos, transformação de variáveis etc.

4. Modelar (Model): esta etapa consiste em aplicar técnicas de modelagem em mineração de dados. Cada modelo tem um propósito e deverá ser definido de acordo com as necessidades do problema e dos dados disponíveis para a análise.

5. Avaliar (Assess): esta etapa consiste em fazer a validação dos resultados obtidos através da aplicação do modelo proposto na etapa anterior. O modelo deverá ser avaliado por sua utilidade, confiabilidade e desempenho. Uma das formas de validar é aplicando o modelo em um conjunto de dados diferente do que foi utilizado na etapa de modelagem para verificar se o algoritmo chega de forma assertiva nas mesmas definições.

Na próxima semana irei fazer o resumo do Data Analytics Lifecycle. Se você usa o SEMMA ou o Enterprise Miner em seu projeto, comenta o post com um 👍.

--

--