Compreendendo o Data.table

conhecendo uma Biblioteca R

Ana Duarte
Data Girls
2 min readFeb 9, 2022

--

by Unsplash

data.table é um pacote R para transformar dados que fornece uma versão aprimorada de estrutura de dados padrão do R. Sua sintaxe basicamente se resume em DT[i, j, by]:

  1. i: selecione linhas;
  2. j: manuseie colunas;
  3. by: agrupe de acordo com

Algumas das suas principais vantagens, segundo seus criadores⁴, são:

  • Possui sintaxe concisa, ou seja, é rápida para digitar e rápida de ler.
  • Processa em velocidade rápida
  • Memória eficiente
  • Há uma comunidade ativa no StackOverflow ⁵

Antes de tudo, para usá-lo é preciso instalar o seu pacote³ através do comando install.packages("data.table"), logo em seguida 'chamaremos' a biblioteca usando library(data.table). Pronto! A biblioteca está pronta para ser utilizada.

Agora já podemos criar um data.table. Abaixo segue um exemplo de conjunto de dados que contém o nome e altura de um determinado público criado através do data.table:

Entretanto se já tivéssemos essas informações em um data.frame, podemos convertê-lo em data.table usando:

Além disso é possível ler um arquivo, em .csv ou .tsv, utilizando:

Agora lembra-se da sintaxe DT[i, j, by]? Vamos explorar cada uma dessas partes.

Usando i (selecione, conte, some, renomeia)

Selecione uma parte das observações a partir de um critério:

Se usarmos o data.table declarado no início do artigo, teremos como output:

Usando j (Manuseei, selecione e extraia colunas.)

Output:

Use funções de resumo, como média( ), mediana( ), min( ), max( ) para sumarizar seus dados

Output

Delete uma coluna

Output:

Usando by

Podemos também agrupar por um determinada coluna.

É claro que podemos usar todos campos ao mesmo tempo

Data.table é uma poderosa ferramenta no que se trata o manuseio de dados no R, entender sua sintaxe é o primeiro passo para colocar em prática e compreender suas principais vantagens. Dando este passo, fica mais fácil de combinar data.tables entre si ou até alterar o formato de um conjunto de dados, mas isso já é uma conversa para outras missões!

Referências

[1] https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro.html#what-is-datatable-1a

[2] https://cran.r-project.org/web/packages/data.table/data.table.pdf

[3] https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro.html#what-is-datatable-1a

[4] https://rdatatable.gitlab.io/data.table/

[5] https://stackoverflow.com/questions/tagged/data.table

Sigam a gente nas redes sociais:

Instagram: @datagirls.neuron

Linkedin

--

--