Utilizando o dplyr!
O dplyr é um pacote para a manipulação de dados no R que vai facilitar (e muito) a sua vida.
Como de costume, vamos iniciar o pacote com o comando library(dplyr)
. Para este tutorial, vamos utilizar o banco de dados “Airq” do pacote “Ecdat”. Para instalar estes pacotes basta utilizar o comando install.packages(“nome do pacote”).
Vamos destacar aqui as seguintes funções:
- filter() para filtrar as colunas
- select() para selecionar colunas
- mutate() para a criação de novas colunas
- summarise() para resumir os valores
Função select()
Vamos criar um novo banco de dados, chamado “Airq1”, excluindo uma coluna do banco original com o argumento “- nomedacoluna”:
Se quiser selecionar mais de uma coluna, utilize o argumento “-c”:
Você também pode utilizar as funções starts_with() ou ends_with() para selecionar colunas com base no início ou final do nome. Vamos selecionar todas as colunas que terminam com “s”:
Função filter()
Vamos filtrar os valores “yes” da variável “coas” em um novo objeto chamado “Airq4”:
Se quiser adicionar mais argumentos, utilize o sinal “&”. No caso, vamos selecionar os valores “yes” para a variável “coas” e valores de “rain” maiores que 30:
Função mutate()
A função mutate() cria novas colunas. Vamos criar duas novas columas, uma chamada “vala2” e outra “dens2”. A “vala2” será o resultado da divisão da coluna “vala” pela coluna “medi”; a nova coluna “dens2” será o resultado da subtração da variável “medi” na variável “dens”:
Função sumarize()
A sumarize é interessante para criar pequenos resumos dos seus dados de acordo com a sua preferência. É muito mais flexível que a função “summary”, por exemplo.
Vamos criar um novo objeto, chamado “sumario” e vamos adicionar o valor da média e o valor máximo da variável “dens”:
Se gostou e quiser aprender mais sobre o pacote, dê uma olhada aqui, aqui e aqui.
Abraços!
Dúvidas? Visite nosso site ou mande um e-mail para viniciusbrbio@gmail.com