Modelagem Star Schema e Dashboard: estudo de caso.

Gabi Fernandes
@gabifernandesc
Published in
6 min readSep 11, 2020

Neste artigo apresento o passo a passo do desenvolvimento da dashboard de Estratégia de vendas. Desde a preparação dos dados até a apresentação no Power Bi.

Este estudo caso foi exercício do curso de Microsoft Power Bi da DSA - Data Science Academy.

Dashboard finalizada

Apresentação do Caso

A empresa está montando a estratégia de vendas para o próximo ano e precisa saber qual dos fabricantes dos produtos vendidos, apresenta melhor desempenho nas vendas. O objetivo é descartar os fabricantes cujos produtos possuem poucas vendas e tentar negociar melhores condições com os principais fabricantes.

Em paralelo a isso, a empresa gostaria de ter diferentes visões das vendas realizadas nos últimos 4 anos (período de 2012 a 2015). Deve ser possível segmentar os relatórios de vendas por diferentes informações e por diferentes ângulos. Estas informações irão suportar as estratégias da empresa para o próximo ano.

Sua fonte de dados é um arquivo Excel com dados coletados do sistema de vendas, CRM e ERP da empresa. O conjunto de dados foi entregue pelo departamento de TI com as seguintes colunas.

Figura da Tabela Fonte: DSA

Com base na apresentação do caso, defini 4 perguntas a responder com o Dashboard.

1- Qual dos fabricantes dos produtos vendidos, apresenta melhor desempenho nas vendas?

2- Qual total de vendas por estado e por categoria?

3- Qual o total das vendas por segmento?

4- Qual segmento tem maior influência no valor médio de venda?

A partir da definição destas perguntas a serem respondidas, iniciei a modelagem dos dados e vou apresentar o processo.

Modelagem dos dados

Quando falamos de modelagem de dados, muitas vezes nosso pensamento remete para Banco de Dados. Neste artigo vou explorar modelagem dentro do Power Bi.

Vou apresentar o processo utilizado para criação da Dashboard onde os dados foram carregados no Power Bi a partir de um planilha Excel.

Planilha com os dados brutos

Ao analisar a planilha, identifico que tem todos os dados necessários para responder às perguntas, sendo assim, não ha necessidade de buscar mais dados, fazer grandes limpezas, remover colunas, etc.

Outra observação importante a se fazer é que os dados estão todos em uma mesma tabela, sendo assim, a criação de relacionamentos é opcional. Diferente de quando temos um arquivo com dados espalhados em diferentes tabelas onde é obrigatório fazer os relacionamentos para criação dos gráficos.

Por este motivo, já carreguei os dados no Power Bi. Não identifiquei a necessidade de modificar estes dados na planilha antes de carregar.

Após o carregamento é importante verificar se a ferramenta Power Bi reconheceu os dados e as tabelas.

Após o carregamento, somente removi algumas informações duplicadas e iniciei a criação das tabelas Dim.

Importante: antes de carregar os dados, verificar as configurações regionais. Aqui trabalhei com inglês para atender a demanda dos dados numéricos de valores. Após verificar que os dados estavam corretos, com acentos, os valores com pontos e virgulas, segui para a criação das tabelas DIM.

Tabelas de dimensões são tabelas dim, utilizadas para facilitar a visualização dos dados por diferentes ângulos atendendo a demanda. Além disso, facilita a alteração de dados caso necessário.

A granularidade(nível de detalhamento do relatório) e outro fator importante que as tabelas dimensionadas oferecem. Essa divisão permite extrair relatórios por minutos, por exemplo.

Vejamos o workflow deste trabalho.

Figura Workflow Fonte: DSA

Este projeto foi construído passando por estas 3 fases. Este trabalho pode ser cíclico, ou seja, sempre pode precisar retomar o processo de preparação dos dados uma vez que estes podem não atender a demanda do momento.

Fase 1- Preparação dos dados

Nesta fase, utilizei o Power Query para transformar os dados. Para acessar o Power Query deve-se clicar em transformar dados.

Nesta tela podemos modificar o tipo da coluna, do dado, criar uma consulta, remover registros duplicados, duplicar uma tabela. Permite realizar a “limpeza” e organização dos dados de acordo com a sua necessidade.

O primeiro passo, foi duplicar a tabela original e a partir da cópia fazer as alterações necessárias para criar as tabelas dimensionais.

Neste passo, além de duplicar a tabela original, removi os dados duplicados das tabelas para evitar erros na hora da confecção dos gráficos, principalmente vendedor e loja.

Observação: tabelas com datas contendo apenas anos, merecem atenção. Uma tabela com os dados dos anos numéricos, podem ser somados ao fazer uma relação com outra tabela para criar um gráfico. Para esse erro não ocorrer, podemos mudar o dado de numérico para texto, assim os valores não são somados.

Também foi necessário transformar os tipos dos dados, neste caso, o campo Tabelas de dimensões contém parte dos dados onde em um relacionamento com a tabela Fato apresentam a perspectiva desejada.

Sendo assim, as tabelas de dimensões foram criadas separando dados de vendedor, produto, loja e tempo. Assim foi mais fácil visualizar dados duplicados.

Fase 2 - Modelagem dos dados - Modelo Star Schema

Modelo de relacionamento Star Schema do Estudo

A partir da tabela base, com os dados brutos, e após a preparação dos dados descrita na fase anterior, foi possível criar as dimensões e seus relacionamentos através das chaves primarias e estrangeiras.

Aqui apresento as tabelas de dimensões e seus relacionamentos que através das junções destes dados foi possível criar os gráficos e responder às perguntas acima.

Tabelas DIM (dimensões) representam as entidades em nosso problema de negócios e a classificação aplicada nos dados. Este modelo normalmente é feito em bancos de dados, mas quando se trata de um volume menor de dados, podemos fazer no Power Bi.

Eu, particularmente, acredito que seja importante sempre fazer no Power Bi as relações, assim, facilita a visualização dos dados, como estão organizados e onde aplicar modificações, o que remover, etc.

Para criar a Tabela Fato, utilizei a tabela original, onde todos os dados já haviam sido utilizados, exceto a coluna ValorVenda.

Na tabela fato, precisei agregar ao ValorVenda a chave primária de cada dimensão para poder verificar o valor da venda de um produto, seguimento, categoria, conforme solicitado.

As cardinalidades foram mantidas uma vez que atendiam a demanda do projeto. Aqui cada registro de venda é feito para cada produto, por isso, está 1 para 1 em filtro cruzado.

Fase 3 - Visualização dos dados - Gráficos no Power Bi

No primeiro gráfico, Valor de Venda por Fabricante foi construído com a união das tabelas Venda e Fabricante, respondendo a primeira pergunta. Qual dos fabricantes dos produtos vendidos, apresenta melhor desempenho nas vendas?

Através do gráfico identificamos que os 5 primeiros estão acima da média de vendas e são os que podem ser acionados para uma negociação de descontos. Os últimos serão candidatos para a descontinuidade das vendas.

No gráfico do mapa, respondemos à pergunta 2, qual o total de vendas por estado e por categoria? Este gráfico é comporto pela junção das tabelas vendas, estado e categoria.

A pergunta 3 está no gráfico Vendas por Segmento que responde à pergunta Qual o total das vendas por segmento? A junção das tabelas vendas e seguimentos apresentam o funil de vendas.

Para responder à pergunta 4 Qual segmento tem maior influência no valor médio de venda? Utilizei a função Principais Influenciadores onde em analisar eu selecionei o valor venda e explicar por segmento para poder responder à pergunta.

Assim, finalizo a dashboard transformando dados em informações úteis para os tomadores de decisão.

--

--

Gabi Fernandes
@gabifernandesc

Data Science student | Entrepreneur | Business Intelligence | Developer