R para jornalistas: instalação, leitura e verificação de arquivo

Published in

pizzadedados

5 min readMay 3, 2019

Este tutorial mostra as funções básicas da linguagem de programação R que podem ser úteis para jornalistas. Caso prefira, veja o mesmo conteúdo deste post no caderno "R Markdown".

Anteriormente, eu fiz tutoriais com o básico do Google Spreadsheet para jornalista.

Caso você não tenha o RStudio na sua máquina, por favor siga o passo a passo deste tutorial (em inglês) para Mac ou Windows. Também recomendo que você baixe um editor de texto, como o Sublime.

Cada bloco de código, também chamado de “chunk”, tem uma função diferente. Para criar um arquivo "R Markdown", abra o RStudio e clique em "File" > "New File" > "R Markdown".

Ou, se não for escrever muito, crie um "R Script". Caso prefira usar o "R Script", você deve incluir apenas o conteúdo que está dentro de cada chunk.

Para rodar o código, selecione o trecho e clique em command + enter no Mac (ou CTRL + enter no Windows). No "R Markdown", também é possível clicar na seta verde à direita.

São, no total, três tutoriais de R para jornalistas:

Instalação, leitura e verificação (este post);
Limpeza, renomeações e modificações;
Análise de dados e criação de gráficos (em breve).

### Instalar bibliotecas

Aqui vamos usar "install.packages()" para instalar as bibliotecas de que precisamos nas três etapas de tutorias. Para isso, nós inserimos dentro dos parêntesis, entre as aspas, o nome da biblioteca.

```{r}
install.packages(“data.table”)
install.packages(“tidyverse”)
install.packages(“ggplot2”)
```

## Carregar bibliotecas

Da mesma forma que instalamos as bibliotecas, nós também precisamos chamá-las. Assim, escrevemos "library()" e inserimos dentro dos parêntesis, novamente, o nome da biblioteca.

```{r}
library(data.table)
library(tidyverse)
library(ggplot2)
```

## Importar o arquivo

No caso, nós escolhemos o nome “cota_senado” para o arquivo que hospedamos no site GitHub Gist. Assim, não precisamos trabalhar com um arquivo local, que só estaria disponível para a nossa máquina.

Caso nós fôssemos usar um arquivo que está no nosso computador, nós teríamos que ver onde ele está e informar esse caminho (path) para o RStudio. Ou teríamos de clicar em "File" > “Import Dataset” e achar o arquivo. Abaixo, usamos a função fread() para importar o arquivo.

```{r}
cota_senado <- fread(“https://gist.githubusercontent.com/gcaesar27/5faede8c1c6ffc82c7145dc3ececcbfe/raw/f3192ff17214c3c5d8eca4ebad42ba6f70d409aa/cota-senado-30-abril-2019")
```

Esta não é a única forma de importar o arquivo. Há várias formas. Abaixo, por exemplo, nós já informamos os nomes das colunas ("col.names"), bem como o separador de colunas ("sep"), o cabeçalho ("header") e a codificação ("encoding").

Observação: nós usamos outro nome (cota_senado2) para não sobrescrever o arquivo anterior.

```{r}
cota_senado2 <- fread(“https://gist.githubusercontent.com/gcaesar27/5faede8c1c6ffc82c7145dc3ececcbfe/raw/f3192ff17214c3c5d8eca4ebad42ba6f70d409aa/cota-senado-30-abril-2019", sep = “;”, header = TRUE, encoding = “UTF-8”, col.names = c(“ano”, “mes”, “senador”, “categoria”, “cnpj_cpj”, “empresa”, “n_documento”, “data”, “detalhamento”, “valor_reembolso”))
```

E ainda com outra biblioteca ("read.table"). Perceba que nós estamos importando um arquivo CSV, mas há outras bibliotecas que importam arquivos Excel, por exemplo, ou outros formatos.

```{r}
cota_senado3 <- read.csv(“https://gist.githubusercontent.com/gcaesar27/5faede8c1c6ffc82c7145dc3ececcbfe/raw/f3192ff17214c3c5d8eca4ebad42ba6f70d409aa/cota-senado-30-abril-2019")
```

## Ver a estrutura do arquivo

Abaixo, nós vemos a classe e o nome de cada coluna e também temos noções de como é o nosso arquivo. Ele tem 10 colunas e 4.477 linhas.

int significa “inteiro”, ou seja, número
chr significa “character”, ou seja, texto

Outras classes básicas possíveis são: numeric, logical e complex. Leia mais na página do Curso-R.

```{r}
str(cota_senado)
```

## Verificar o arquivo

A função "summary()" é bastante interessante para usar com arquivos que tenham números. Ela reúne informações básicas sobre a coluna, como valor mínimo, valor máximo, média, mediana, primeiro quartil e terceiro quartil.

Ao mesmo tempo, em colunas de texto, ela mostra o tamanho da coluna, que abaixo tem 4.477 linhas, já que não é possível calcular métricas como média e afins para textos.

```{r}
summary(cota_senado)
```

## Verificar a classe de uma coluna

Abaixo, usamos "typeof()" para saber qual é a classe da coluna indicada.

A coluna “VALOR_REEMBOLSO” do arquivo “cota_senado” foi considerada uma coluna de texto. Isso é algo em que futuramente precisaremos mexer.


```{r}
typeof(cota_senado$VALOR_REEMBOLSADO)
```

Resultado de typeof(cota_senado$VALOR_REEMBOLSADO)

## Ver os nomes das colunas do arquivo

A função "colnames()" nos informa quais são os nomes das colunas do nosso arquivo.

```{r}
colnames(cota_senado)
```

## Renomear coluna do arquivo

Também podemos usar a função "colnames()" para renomear as colunas ou apenas determinada coluna. No caso, por exemplo, faríamos assim:

```{r}
colnames(cota_senado)[1] <- "year"colnames(cota_senado)
```

Resultado de colnames(cota_senado)`[1] <- "year"`

## Ver as primeiras linhas do arquivo

Por padrão, a função "head()" mostra as seis primeiras linhas. Se quiser ver mais linhas ou menos linhas, faça assim: "head(cota_senado, 15)" ou "head(cota_senado, 3)".

```{r}
head(cota_senado)
```

## Ver as últimas linhas do arquivo

A função "tail()" funciona da forma semelhante. Ela mostra as seis últimas linhas do arquivo. Também podemos indicar o número de linhas que queremos ver.

```{r}
tail(cota_senado)
```

```{r}
tail(cota_senado, 15)
```

Se você gostou do tutorial e se interessou pelo uso do R, você pode ler a segunda etapa e conhecer novas funções úteis para jornalistas: “R para jornalistas — limpeza, renomeações e modificações”.

Escreva para o Pizza você também
Você também pode adicionar ou escrever para a Revista do Pizza. Para isso, basta mandar e-mail para gente contando a ideia do artigo ou mandando o link se o artigo já tiver sido publicado.