Explorando o pacote dplyr no Power BI
Neste artigo, abordaremos um pouco sobre o uso do pacote dplyr no R, quando estamos trabalhando ou mesmo estudando Data Science, um dos principais fatores do qual nos deparamos neste processo é o tratamento que é dado as informações, antes mesmo que, qualquer modelo de predição ou método estatístico seja aplicado, este processo possui extrema importância no processo de tratamento dos dados, pois permite com que os mesmos fiquem melhores formatados, no momento em que um gráfico for gerado.
Um dos pacotes do R que permite esta tratativa, é o dplyr, por meio do mesmo, podemos executar operações de manipulação de tabelas (do termo em inglês também conhecido como data wrangling), de modo a transformar e mapear dados para que, no decorrer deste processo, os mesmos se encontrem mais adequados para a tarefa à qual será aplicada, podemos citar como alguns exemplos dessas operações:
· Criação de novas colunas:
· Agrupamento por variáveis;
· Ordenação de um valor por ordem crescente ou descrente;
· Filtragem de valores a partir de uma determinada dimensão (Gênero, Mês);
· Entre outros.
Preparação do Ambiente
Para a execução da demonstração abaixo, é necessário o seguinte componente, ambos são gratuitos.
· R;
· RStudio.
Nota: O R deve ser instalado antes do RStudio, pois o primeiro programa é necessário para que o segundo inicialize.
Conhecendo a Base
No exemplo abaixo, faremos uso da base airquality, constituída pela medição da composição de diferentes elementos do Ar, no período compreendido entre junho e setembro, para trabalhar com a mesma, usaremos o RStudio, a base já se encontra carregada no mesmo, e pode ter sua estrutura visualizada pelo comando abaixo:
Observe que são retornados informações importantes para conhecimento da base como número de registros (153), variáveis (6) e tipos (int), dentre elas, o Month, no entanto, apenas o mês 5 (Maio) consta na preview acima, esta variável será a nossa dimensão a ser trabalhada nos exemplos que serão apresentados a seguir, os outros níveis da mesma podem ser conferidos no comando abaixo.
Com esta informação em mente, teremos como objetivo criar outras três bases, sendo as mesmas para os meses de maio, junho e julho, contendo as medições de Ozônio, Raios Solares e Temperatura.
Divisão dos Dados em diferentes bases
Iniciaremos fazendo a chamada e inicialização do pacote dplyr, é importante ressaltar aqui que a chamada é importante, para que o recurso do pacote possa ser utilizado.
A partir disto, podemos iniciar a construção das bases propriamente dita, onde ao todo, serão três, correspondentes as medições entre os meses de Maio e Julho. A sintaxe do dplyr trabalha no seguinte modo, conforme estrutura abaixo:
A estruturação das bases para carga no Power BI ficará do seguinte modo:
Base 1 — Medições Maio
Base 2 — Medições Junho
Base 3 — Medições Julho
Onde:
· select: seleciona as colunas da base;
· filter: retorna os registros de acordo com um parâmetro especificado;
· arrange: ordena os termos por uma determinada ordem;
· mutate: cria uma nova variável, com base nas que já existem na base.
· replace; substitui o valor em uma coluna dada uma determinada condição.
Carga das Tabelas para o Power BI
Uma vez criadas as bases, podemos fazer a carga das mesmas no Power BI, o mesmo conta com um conector chamado de R Script, que é quem nos permite inserir a base a partir de um script já pronto, como os que já foram estruturados acima, no Power BI, navegue até Home -> Get Data e, na barra de busca, digite “r scr” para acessar o conector R Script, após selecionar o mesmo, clique em “Connect”
Figura — Get Data
Figura — Conector R Script
Será aberta uma tela onde é possível colar o script em R, insira os 3 Scripts acima (Base 1, Base 2 e Base 3), um de cada vez e na ordem abaixo, e clique em ok, repare que, mesmo fora da IDE do RStudio, a chamada do pacote para execução da função ainda se vê necessária, após isto, será exibido a tela de prevê, clique em “Load”.
Figura — Script Base 1
Repita os passos acima para as Bases 2 e 3, note que o retorno delas é o dado já tratado, como executado no dplyr.
Figura — Load Data (Base 1)
Figura — Load Data (Base 2)
Figura — Load Data (Base 3)
Observe abaixo que agora temos as três bases carregadas, onde já é possível trabalhar com as mesmas no Power BI.
Figura — Campos Importados
A seguir, trabalharemos nas visões por mês, conforme mencionado início deste artigo
Na aba “Vizualizations”, selecione o visual abaixo (que corresponde ao Table) e arraste para o campo de relatório.
Figura — Table Visual
Com o visual selecionado, expanda a tabela air_data_may na aba “Fields” e em “Vizualizations”, arraste os campos para seus eixos conforme abaixo:
Figura — Configuração Maio
Repita os mesmos procedimentos acima para a base de Junho e Julho
Figura — Configuração Junho
Figura — Configuração Julho
Caso, deseje, é possível aumentar o tamanho da fonte dos valores e das colunas:
Figura — Fontes Valores
Figura — Fontes Colunas
Com isso, temos as nossas três visões abaixo, cada qual demonstrando as medições de qualidade do Radiação Solar, com isso, podemos observar que o a linguagem R também oferece possibilidades de transformações e divisões dos dados, além do Power BI.
Figura — Visão Final
Por hoje é isto, espero que tenham gostado e até a próxima!