R - You Ready? Linguagem R- Porque é hora de aprender

Ana Carolina Dias
rladiesbh
6 min readJun 10, 2019

--

R é uma linguagem e também um ambiente de programação que suporta diversos tipos de manipulação, visualização gráfica, análises e gerenciamento de dados. Na atualidade é considerado um dos melhores ambientes computacionais para essa finalidade.

A linguagem R foi criada por volta dos anos 90 e por muitos anos esteve apenas sob o domínio dos estatísticos dentro da área acadêmica, mas nos últimos anos vem sendo amplamente utilizada por estatísticos, cientistas, analistas e engenheiros de dados, como um meio conveniente para tratamento e análise de Big Data e como ferramenta para compreensão, insight e conhecimento.

Uma das grandes vantagens do R é que além de ser gratuito e de código aberto, ele funciona em diversos sistemas operacionais: GNU Linux, Microsoft Windows, e outros. Além disso o R disponibiliza uma ampla variedade de técnicas estatísticas e gráficas, incluindo modelação linear e não linear, testes estatísticos clássicos, análise de séries temporais (time-series analysis), classificação, agrupamento e etc.

Data Science

A Ciência de dados é uma área interdisciplinar voltada para
o estudo e a análise de dados, que visa transformar:

Como estamos vivendo na era do Big Data, a Ciência de dados está se tornando um campo muito promissor para explorar e processar grandes volumes de dados gerados a partir de várias fontes e em diferentes velocidades. Cresce portanto a procura por ferramentas capazes de manipular essa grande quantidade de dados e que forneçam o apoio necessário nas tomadas de decisão.

E porque o R pode ser uma dessas ferramentas?

  • O R é bem fácil de programar, além de ser extensível e oferecer funcionalidades ricas para desenvolvedores projetarem suas próprias ferramentas e métodos para a análise de dados.
  • É uma excelente forma de criar análises reprodutíveis e de alta qualidade. Possui toda a flexibilidade e potência que procuramos quando lidamos com dados.
  • R é altamente expansível com o uso dos pacotes. Os pacotes são bibliotecas com dados e funções para diferentes áreas do conhecimento relacionado a estatística e áreas afins. Qualquer nova pesquisa no campo provavelmente tem um pacote de acompanhamento em R desde o início.
  • R tem uma história longa e confiável e uma forte comunidade de suporte no setor de dados. O que significa que você pode facilmente contar com o apoio on-line de outros programadores.
  • A linguagem R é acessível a não programadores. O R não é necessariamente feito para programadores. Ela é voltada para pessoas com problemas com dados a serem resolvidos independentemente das aptidões em programação.
  • Além disso e muito mais, o R disponibiliza uma ampla variedade de técnicas estatísticas e gráficas, incluindo modelação linear e não linear, testes estatísticos clássicos, análise de séries temporais (time-series analysis), classificação, agrupamento e etc. Além de técnicas para criação de modelos e algoritmos voltados para Machine learning.

Muitas empresas como Oracle, Microsoft, Google, investem seus bilionários recursos em pesquisa e desenvolvimento para aprimorar suas soluções analíticas utilizando ou permitindo a sincronização como o ambiente R como base, como o Oracle R Enterprise e o Microsoft R Server.

Tratamento de Dados

Um dos maiores desafios de um Cientista de Dados é o processo de limpeza, transformação e organização dos dados, ou seja, a manipulação, que muitas vezes gasta uma grande parte do seu tempo.

O R possui diversos pacotes que facilitam esse processo, através de funções que foram desenvolvidas especificamente para esta finalidade.

Com poucas linhas de código é possível filtrar, agrupar, modificar, inverter e transformar os dados ou ainda criar subsets e aplicar funções.

Existem pacotes específicos para trabalhar com grandes bases de dados, arquivos de textos, datas e pacotes versáteis como o Tidyverse, que é uma coleção de pacotes R projetados para a ciência de dados, no qual todos os pacotes compartilham uma filosofia de estrutura, gramática e estruturas de dados subjacentes.

Uma das melhores ferramentas para visualização de dados

O R tem capacidade de criar gráficos extremamente úteis com uma aparência sofisticada e agradável, tonando-se uma forte ferramenta de visualização e gráficos. A linguagem R permite a criação de gráficos interativos a partir dos resultados das análises de dados. Esses gráficos podem ser usados para obter insights significativos durante todo o processo de análise de dados ou podem ser exportados em um relatório para apresentações executivas.

Para mais visualizações gráficas acesse:
* Plotly: https://plot.ly/r/basic-charts/
* Hicharter: https://www.highcharts.com/demo

Comunidade Científica

A linguagem R por muito tempo esteve apenas na comunidade científica e isso faz com que ainda hoje, mesmo que usada pelos mais diversos tipos de profissionais do mercado de trabalho, ainda tenha grande presença na comunidade científica.

E por este motivo, diversos pesquisadores que desenvolvem pesquisas, modelos e metodologias utilizam a linguagem R e compartilham o código como open source, de maneira que o trabalho possa ser reproduzido e as pesquisas possam ser conduzidas e replicadas por outros indivíduos ao redor do mundo. O mais incrível é que estas pesquisas podem ser feitas nas mais diversas áreas de conhecimento: Medicina, Engenharia, Biologia, Finanças e etc. (Acesse o site RPubs e você terá acesso a excelentes trabalhos feitos em R e compartilhados na comunidade).

Outras funcionalidades

Como se não bastasse todas as ferramentas mencionadas anteriormente, o R possui ainda mais coisas surpreendentes, como:

Possibilidade de integração com ambientes de controle de versão e compartilhamento de algoritmos como o Github.

O pacote blogdown, permite a criação de Blogs, no qual o conteúdo, as análises e os posts são feitos diretamente do script em R, além de permitir a inserção dos gráficos interativos que a plataforma possui.

O pacote Shiny é um pacote R que facilita a criação de aplicativos Web interativos diretamente do R. Você pode hospedar aplicativos independentes em uma página da Web ou integrá-los em documentos R Markdown ou ainda criar painéis (Dashboards). Você também pode estender e melhoras seus aplicativos Shiny com temas CSS, htmlwidgets e ações JavaScript. Veja um exemplo do que é possível fazer aqui.

E você acha que acabou? Ainda não…

Você pode simplesmente estar em um dia estressado no trabalho e querer se distrair um pouco. E o que então, o R pode te oferecer com relação a isso? Games! Isso mesmo, você não entendeu errado. Através do pacote RCade criado pelo francês Romain Lesur é possível rodar jogos feitos em HTML5 dentro da área Viewer do RStudio. \o/ \o/ \o/ \o/

Esse pacote possui vários jogos disponíveis:

  • 2048
  • BoulderDash
  • CathTheEgg
  • Core
  • CustomTetris
  • GreenMahjong
  • Mariohtml5
  • Pacman
  • Pond
  • SpiderSolitaire
  • SURVIVOR

Próximos passos

R - you ready ? Não? Então junte-se a nós!

No R-Ladies, promovemos cursos de R que vão do básico até o avançado, e que ajudam você a começar a construir um portfólio de ciência de dados para demonstrar suas habilidades para os empregadores e conseguir um emprego no mundo dos dados.

Acompanhe nossas redes e fique de olho nas nossas datas!

--

--

Ana Carolina Dias
rladiesbh

Mestre em Estatística | Fundadora do Descomplica Estatística e Co-Fundandora do R- Ladies BH.