Introdução à programação em R

Layla Comparin
rladiesbh

--

Os cientistas de dados extraem informações dos dados e as utilizam para criar previsões, visualizações e tecnologias valiosas. Para aprender com os dados, muitas vezes precisamos realizar bilhões de cálculos em grandes conjuntos de dados. Fazemos isso com o auxílio de computadores, que precisam receber instruções. Nós nos referimos a escrever essas instruções como programação .

Há uma variedade de linguagens de computador que podemos usar para programar. Vamos nos concentrar em aprender R , uma linguagem que oferece excelente suporte para o trabalho de ciência de dados.

Antes de prosseguirmos, iremos fazer a instalação dos programas R e RStudio (o qual utilizaremos para os nossos exercícios).

Instalação do R

Para instalar o R no Windows, o primeiro passo é fazer o download do instalador. Para isso, entre neste link e clique em “Download R x.x.x for Windows”, em que x.x.x é o número da versão mais recente disponível.

Salve o arquivo em qualquer pasta do seu computador. No meu caso, salvei na pasta “Downloads”.

Clique no arquivo duas vezes com o botão esquerdo. Ele pedirá para você selecionar a linguagem da instalação. Escolha um idioma e clique em “OK”.

Em seguida, clique em “Avançar”/ “Próximo” . Continue clicando em “Avançar” e, ao fim da instalação, em “Concluir”. Pronto! O R está instalado no seu computador !

Instalação do RStudio

Agora vamos instalar o RStudio, a IDE que utilizaremos para editar e executar códigos em R. Para fazer o download, entre nesta página.

Nessa página você tem duas opções:

  1. Se você tiver acesso administrador, baixe a versão que está na lista de Installers for Supported Platforms. Em seguida a instalação será bem simples: fazer o download, abrir o instalador e seguir as instruções, clicando no botão “Avançar”.

2. Se você não tiver acesso de administrador, faça o download da versão que está na lista Zip/Tarballs. (veja imagem abaixo)

Clique duas vezes no arquivo que você baixou da página do RStudio (ver imagem abaixo) e siga as instruções de instalação.

Instalação se você não for administrador

Se você não for administrador, você deve ter feito o download de um arquivo do tipo .zip, que contém o código do RStudio. É o arquivo selecionado na imagem abaixo.

Clique com o botão direito neste arquivo e depois em Extrair Tudo conforme a imagem abaixo.

Você verá uma tela com o caminho da extração. Não mude nada e clique em extrair. Espere o Windows completar a extração.

Agora, na pasta Downloads, a pasta que deixamos como local de extração, você terá uma pasta chamada: RStudio-1.2.1335.

Abra essa pasta e entre na subpasta com nome bin (imagem abaixo). Em seguida, procure pelo arquivo chamado rstudio e clique duas vezes. Isso abrirá o RStudio. Recomendo fixar o programa na barra de tarefas para não ter que ficar procurando nessa pasta sempre que quiser abri-la.

Observação: se você excluir a pasta que extraímos, o RStudio irá parar de funcionar.

Após a instalação ser efetuada, abra o RStudio. Ele irá abrir exatamente como na tela abaixo.

Para começarmos a “programar”, clique no + abaixo do menu File, e depois em R Script. Ou simplesmente aperte Ctrl + Shift + N.

Após criar o RScript, você verá 4 quadrantes. Observe a figura abaixo.

Esses quadrantes representam o editor, o console, o environment e o output. Eles vêm nesta ordem, e depois você pode organizá-los da forma que preferir.

Listamos abaixo as funções dos principais painéis:

  • Editor/Scripts: é onde escrevemos nossos códigos.
  • Console: é onde rodamos o código e recebemos as saídas. O R vive aqui!
  • Environment: painel com todos os objetos criados na sessão.
  • Files: mostra os arquivos no diretório de trabalho. É possível navegar entre diretórios.
  • Plots: painel onde os gráficos serão apresentados.
  • Help: janela onde a documentação das funções serão apresentadas.
  • History: painel com um histórico dos comandos rodados.

Conhecer atalhos ajuda bastante quando estamos programando no RStudio. Veja os principais:

  • CTRL+ENTER: roda a linha selecionada no script. O atalho mais utilizado.
  • ALT+-: (<-) sinal de atribuição. Você usará o tempo todo.
  • ALT+SHIFT+K: janela com todos os atalhos disponíveis.

R Básico

Vamos começar por instruir o computador para executar um cálculo: 50 + 22. Precisamos escrever a instrução 50 + 22no editor de código dentro do RStudio e então apertar Ctrl + Enter ou clicar em Run do lado direito mais acima do editor de código, lembrando que o cursor tem que tá na linha da instrução. O computador seguirá nossas instruções, e retornará 72, a soma de 50e 22, como resultado:

As instruções que escrevemos usando uma linguagem de computador são chamadas de código . O código que escrevemos para instruir o computador a executar uma tarefa é chamado de programa . No exemplo acima, escrevemos um programa, consistindo em uma linha de código, para instruir o computador a calcular a soma de 50e 22.

Agora é sua vez de escrever um programa!

->Escreva um programa para instruir o computador a realizar o cálculo 125 - 3. Escreva seu código no editor de código do RStudio e execute-o.

O resultado desse cálculo, que foi exibido depois que o executamos, é chamado de saída.

No R, podemos realizar cálculos usando alguns operadores aritméticos comuns , incluindo:

  • Adição ( +)
  • Subtração ( -)
  • Multiplicação ( *)
  • Divisão ( /)

Digamos que, em vez de um cálculo, queremos realizar vários cálculos. Se digitarmos as cinco linhas de código a seguir no editor de código, a saída consistirá nos resultados de cada cálculo:

O que acontece se, em vez disso, expressamos nossas instruções como uma única linha de código?

Como podemos ver, o resultado é muito diferente. Isso ocorre porque nossa única linha de código instruiu o computador a fazer algo bem diferente do que as nossas cinco linhas de código. Como outras linguagens, as linguagens de computador têm regras de sintaxe que governam a organização de símbolos, palavras e frases. Em R, as expressões são avaliadas uma linha por vez seguindo a ordem das regras de operações da matemática.

Agora que praticamos o básico, vamos começar a escrever programas em R para explorar alguns dados.

Vamos dizer que você é um estudante tendo sete aulas. Aqui está uma tabela contendo notas das suas provas, exercícios e projetos para cada aula (num somatório de 100 pontos):

E se quisermos calcular sua nota final na aula de matemática? Se as notas da prova, do projeto e do exercício receberem o mesmo peso, podemos escrever o código no R para instruir o computador a realizar o cálculo:

( 92  +  87  +  85 ) /  3

Lembre-se de que o R segue a ordem das operações e, portanto, a expressão entre parênteses é avaliada primeiro.

Para tornar mais fácil para os outros (incluindo o nosso eu futuro) compreender o nosso código, podemos adicionar notas a ele usando comentários . Os comentários seguem o #símbolo e o interpretador R não os avalia:

Vamos aos exercícios:

-> Consulte a tabela de dados da turma para calcular sua nota final em cada uma das suas turmas:

  • Química
  • Redação
  • Arte
  • História
  • Música
  • Educação Física

-> Use comentários (lembre-se, estes seguem #) para adicionar notas ao seu código sobre qual classe estamos calculando.

Reposta (abaixo) do exercício acima:

( 92  +  87  +  85 ) /  3  # matemática( 90  +  81  +  92 ) /  3  # química( 84  +  95  +  79 ) /  3  # redação( 95  +  86  +  93 ) /  3  # arte( 77  +  85  +  90 ) /  3  # história( 92  +  90  +  91 ) /  3  # música( 85  +  88  +  95 ) /  3  # educação física

Isso funcionou bem o suficiente para um programa com sete linhas de código. À medida que nossas tarefas de programação se tornam mais complexas, atribuir valores às variáveis melhorará nosso fluxo de trabalho. O uso de variáveis ​​nos permite armazenar valores na memória do computador com um nome associado que podemos usar para acessar os valores. Por exemplo, digamos que temos uma variável chamada human_populationque armazena o valor 7.000.000.000. Quando digitamos human_populationno editor de código, o computador acessa o valor armazenado na variável e o retorna.

Criar uma variável requer dois passos:

  1. Crie o nome da variável
  2. Atribuir valores ao nome da variável usando o operador de atribuição <-

Se quisermos atribuir a nota final para a aula de matemática a uma variável chamada matemática, escreveríamos:

matemática  <-  88

Se digitarmos matemática, a saída consistirá no valor que atribuímos à variável matemática:

[1] 88

Também podemos atribuir expressões a variáveis:

matemática  <- ( 92  +  87  +  85 ) / 3

Se digitarmos a variável nomeada matemáticano editor de código, a saída consistirá no resultado da expressão que atribuímos à variável:

[1] 88

Ao nomear variáveis ​​no R, existem algumas regras a seguir:

  • Os nomes das variáveis ​​consistem em letras, números, um ponto ou um sublinhado.
  • Podemos começar um nome de variável com uma letra ou um ponto, mas os pontos não podem ser seguidos por um número.
  • Não podemos começar um nome de variável com um número.
  • Nenhum caractere especial é permitido.

Aqui está uma tabela mostrando exemplos de nomes de variáveis ​​válidos e inválidos:

Nós armazenamos a nota de matemática em uma variável. Agora, vamos armazenar as outras disciplinas como variáveis ​​nomeadas.

Vamos aos exercícios:

Armazene os seguintes valores como variáveis. Use os nomes das disciplinas como os nomes das variáveis:

  • quimica: 87.66666
  • redação: 86
  • arte: 91.33333
  • história: 84
  • música: 91
  • educação_física: 89.33333

Armazenar valores como variáveis ​​pode facilitar o rastreamento. Vamos ilustrar isso escrevendo algum código usando as variáveis ​​às quais atribuímos os valores de classe.

Ao executar um código, o R trata as variáveis ​​e os valores da mesma maneira. Por exemplo, 88 + 87.66667 produz o mesmo resultado que as seguintes expressões:

  • matemática + 87.66667
  • 88 + quimica
  • matemática + quimica

Quando realizamos cálculos usando variáveis, a ordem das regras de operações ainda se aplica. Por exemplo, se quisermos instruir o computador a calcular a média das notas de matemática e química, podemos escrever uma expressão usando as variáveis matemáticae quimica:

( matemática  +  química ) /  2

Também podemos armazenar a saída de expressões em variáveis. Para armazenar a média de matemática e química em uma variável chamada média, usaríamos a seguinte sintaxe:

média  <- ( matemática  +  quimica ) /  2

Vamos usar variáveis ​​para escrever um programa para calcular a média final.

Vamos aos exercícios:

No exercício anterior, armazenamos as notas finais de cada disciplina como variáveis. Escreva o código para calcular a média final (a média de todas as notas) e armazene a expressão como uma variável denominada gpa.

Enfim escrevemos um programa para calcular a média de notas usando variáveis ​​que contêm valores únicos (a nota final de cada aula):

gpa  <- ( matemática  +  quimica  +  redação  +  arte  +  história  +  música  +  educação_física ) / 7

Essa solução funcionou bem o suficiente para o pequeno conjunto de dados que estamos analisando, mas não será dimensionado quando começarmos a trabalhar com mais dados. Para se preparar para trabalhar com conjuntos de dados maiores, trabalharemos com objetos de armazenamento que podem conter vários valores: vetores .

No R, os vetores contêm uma sequência de valores que podem ser atribuídos a uma única variável. Por exemplo, poderíamos criar um vetor matem_quimque contenha as notas finais de matemática e química.

Como aprenderemos muito mais sobre isso posteriormente em artigos posteriores, armazenar valores em vetores permite que você execute operações em todas elas de uma só vez .

Para criar um vetor, usaremos use c(), que significa "concatenar".

Esta é a primeira função com a qual vamos trabalhar. Como as funções matemáticas, uma função na programação de computadores leva em entradas e retorna uma saída ou uma ação.

A função c() usa vários valores como entrada e armazena esses valores em uma variável para criar um vetor.

Para criar um vetor que contenha as notas de matemática e química ( 88e 87.66667), escreveríamos este código:

matem_quim  <-  c ( 88 , 87.66667 )

Também podemos criar um vetor referindo-se aos nomes das variáveis:

matem_quim  <-  c ( matemática , quimica )

Se digitarmos matem_quimno editor de código, a saída consistirá nos valores que atribuímos ao vetor:

Lembre-se de que o R possui regras de sintaxe que precisamos seguir para que o computador execute nossas instruções. Se tentarmos armazenar uma sequência de valores sem a c()função:

matem_quim  <-  88 , 87.66667

Receberemos a seguinte mensagem de erro: Error: unexpected ',' in "matem_quim <- 88,"

Agora, vamos criar um vetor contendo todas as disciplinas para que possamos realizar algumas análises adicionais.

Vamos aos exercícios:

  • Crie um vetor contendo as notas finais de cada disciplina usando os nomes das variáveis.
  • Armazene esse vetor como uma nova variável nomeada final_scores.

Até agora discutimos como a programação com vetores nos permitirá trabalhar com grandes conjuntos de dados, já que podemos executar a mesma operação em todos os elementos de um vetor de uma só vez.

Vamos ver como o trabalho com vetores pode melhorar a eficiência da análise de dados.

Anteriormente, usamos operadores aritméticos para calcular a média de notas:

gpa  <- ( matemática  +  quimica  +  escrita  +  arte  +  história  +  música  +  educação física ) / 7

Agora que armazenamos as notas em um vetor, podemos calcular o gpa com mais eficiência. Vamos fazer isso usando uma das funções embutidas do R: mean(). Como a funçãoc(), mean()recebe entradas, executa uma ação e retorna uma saída. A entrada para mean()é um vetor e a saída é a média dos valores contidos no vetor.

Para demonstrar, vamos aplicar a funçãomean()ao vetor matem_quim a partir do exemplo informado anteriormente. Em vez de escrever este código:

( matemática  +  quimica ) /  2

Nós podemos escrever:

mean( matem_quim )

A saída de chamar a funçãomean()no vetormatem_quim é a média das notas de matemática e química armazenadas no vetor:

87,83334

Vamos usar a funçãomean() para calcular sua média de notas.

Vamos aos exercícios:

  • Use a funçãomean() para calcular sua média de notas do vetorfinal_scores que criamos anteriormente. Armazene o resultado do seu cálculo na variável gpa.

Calculamos a média de notas usando a função mean(). Agora, vamos aprender sobre algumas funções R incorporadas adicionais que podemos usar para fazer mais perguntas sobre nosso conjunto de dados de notas:

  • Qual foi a maior pontuação?
  • Qual foi a pontuação mais baixa?
  • Quantas aulas nós fizemos?

Para responder a essas perguntas e mais outras, vamos introduzir algumas funções úteis.

  • min(): Toma um vetor como entrada, a saída é o menor valor no vetor.
  • max(): Toma um vetor como entrada, a saída é o maior valor no vetor.
  • length(): Toma um vetor como entrada, saída é o número total de valores no vetor.
  • sum():: Toma um vetor como entrada, saída é a soma de todos os valores no vetor.

Assim como na função mean(), essas funções permitem executar rapidamente a operação em todos os elementos de um vetor.

Por exemplo, para encontrar a maior pontuação no vetor matem_quim, você pode usar a função max():

max ( matem_quim )

Vamos usar algumas dessas funções para responder a mais perguntas sobre nossos dados de notas de classe.

Vamos aos exercícios:

  • Use a funçãomax() para identificar a nota final mais alta no vetorfinal_scores.
  • Use a função min()para identificar a nota final mais baixa no vetorfinal_scores.
  • Use a função length() para calcular o número total de disciplinas.

Parabéns! Você concluiu o primeiro artigo da série de Introdução à programação em R.

Neste artigo, você aprendeu algumas noções básicas sobre a linguagem R ao analisar os dados:

  • Escrevendo expressões
  • Criando e trabalhando com variáveis
  • Criando e trabalhando com vetores

Neste link, você encontrará um resumo do que aprendeu até agora: Uma lista útil de “tópicos” para os quais você deve pegar como base ao continuar aprendendo R.

No próximo artigo, vamos nos aprofundar no trabalho com vetores para análise de dados. Você aprenderá mais habilidades cruciais para usar o R ​​para trabalhar com dados, como executar operações em vários vetores e usá-las em expressões condicionais.

E não esqueça, a partir desse semestre, iremos promover 3 cursos gratuitos sobre R, sendo eles Introdutório, Intermediário e Básico. :) Em breve, as datas serão divulgadas. Acompanhem nossas redes:

https://www.instagram.com/rladiesbh/

https://twitter.com/rladiesbh

https://www.facebook.com/rladiesbh

--

--

Layla Comparin
rladiesbh

Engenheira de Dados por profissão, confeiteira e dançarina por amor ♥️