Explorando o pacote dplyr no Power BI

Orlando Gomes
6 min readFeb 26, 2018

--

Neste artigo, abordaremos um pouco sobre o uso do pacote dplyr no R, quando estamos trabalhando ou mesmo estudando Data Science, um dos principais fatores do qual nos deparamos neste processo é o tratamento que é dado as informações, antes mesmo que, qualquer modelo de predição ou método estatístico seja aplicado, este processo possui extrema importância no processo de tratamento dos dados, pois permite com que os mesmos fiquem melhores formatados, no momento em que um gráfico for gerado.

Um dos pacotes do R que permite esta tratativa, é o dplyr, por meio do mesmo, podemos executar operações de manipulação de tabelas (do termo em inglês também conhecido como data wrangling), de modo a transformar e mapear dados para que, no decorrer deste processo, os mesmos se encontrem mais adequados para a tarefa à qual será aplicada, podemos citar como alguns exemplos dessas operações:

· Criação de novas colunas:

· Agrupamento por variáveis;

· Ordenação de um valor por ordem crescente ou descrente;

· Filtragem de valores a partir de uma determinada dimensão (Gênero, Mês);

· Entre outros.

Preparação do Ambiente

Para a execução da demonstração abaixo, é necessário o seguinte componente, ambos são gratuitos.

· Power BI Desktop;

· R;

· RStudio.

Nota: O R deve ser instalado antes do RStudio, pois o primeiro programa é necessário para que o segundo inicialize.

Conhecendo a Base

No exemplo abaixo, faremos uso da base airquality, constituída pela medição da composição de diferentes elementos do Ar, no período compreendido entre junho e setembro, para trabalhar com a mesma, usaremos o RStudio, a base já se encontra carregada no mesmo, e pode ter sua estrutura visualizada pelo comando abaixo:

Observe que são retornados informações importantes para conhecimento da base como número de registros (153), variáveis (6) e tipos (int), dentre elas, o Month, no entanto, apenas o mês 5 (Maio) consta na preview acima, esta variável será a nossa dimensão a ser trabalhada nos exemplos que serão apresentados a seguir, os outros níveis da mesma podem ser conferidos no comando abaixo.

Com esta informação em mente, teremos como objetivo criar outras três bases, sendo as mesmas para os meses de maio, junho e julho, contendo as medições de Ozônio, Raios Solares e Temperatura.

Divisão dos Dados em diferentes bases

Iniciaremos fazendo a chamada e inicialização do pacote dplyr, é importante ressaltar aqui que a chamada é importante, para que o recurso do pacote possa ser utilizado.

A partir disto, podemos iniciar a construção das bases propriamente dita, onde ao todo, serão três, correspondentes as medições entre os meses de Maio e Julho. A sintaxe do dplyr trabalha no seguinte modo, conforme estrutura abaixo:

A estruturação das bases para carga no Power BI ficará do seguinte modo:

Base 1 — Medições Maio

Base 2 — Medições Junho

Base 3 — Medições Julho

Onde:

· select: seleciona as colunas da base;

· filter: retorna os registros de acordo com um parâmetro especificado;

· arrange: ordena os termos por uma determinada ordem;

· mutate: cria uma nova variável, com base nas que já existem na base.

· replace; substitui o valor em uma coluna dada uma determinada condição.

Carga das Tabelas para o Power BI

Uma vez criadas as bases, podemos fazer a carga das mesmas no Power BI, o mesmo conta com um conector chamado de R Script, que é quem nos permite inserir a base a partir de um script já pronto, como os que já foram estruturados acima, no Power BI, navegue até Home -> Get Data e, na barra de busca, digite “r scr” para acessar o conector R Script, após selecionar o mesmo, clique em “Connect”

Figura — Get Data

Figura — Conector R Script

Será aberta uma tela onde é possível colar o script em R, insira os 3 Scripts acima (Base 1, Base 2 e Base 3), um de cada vez e na ordem abaixo, e clique em ok, repare que, mesmo fora da IDE do RStudio, a chamada do pacote para execução da função ainda se vê necessária, após isto, será exibido a tela de prevê, clique em “Load”.

Figura — Script Base 1

Repita os passos acima para as Bases 2 e 3, note que o retorno delas é o dado já tratado, como executado no dplyr.

Figura — Load Data (Base 1)

Figura — Load Data (Base 2)

Figura — Load Data (Base 3)

Observe abaixo que agora temos as três bases carregadas, onde já é possível trabalhar com as mesmas no Power BI.

Figura — Campos Importados

A seguir, trabalharemos nas visões por mês, conforme mencionado início deste artigo

Na aba “Vizualizations”, selecione o visual abaixo (que corresponde ao Table) e arraste para o campo de relatório.

Figura — Table Visual

Com o visual selecionado, expanda a tabela air_data_may na aba “Fields” e em “Vizualizations”, arraste os campos para seus eixos conforme abaixo:

Figura — Configuração Maio

Repita os mesmos procedimentos acima para a base de Junho e Julho

Figura — Configuração Junho

Figura — Configuração Julho

Caso, deseje, é possível aumentar o tamanho da fonte dos valores e das colunas:

Figura — Fontes Valores

Figura — Fontes Colunas

Com isso, temos as nossas três visões abaixo, cada qual demonstrando as medições de qualidade do Radiação Solar, com isso, podemos observar que o a linguagem R também oferece possibilidades de transformações e divisões dos dados, além do Power BI.

Figura — Visão Final

Por hoje é isto, espero que tenham gostado e até a próxima!

--

--

Orlando Gomes

Cloud Solution Architect @Microsoft São Paulo - Brazil