Ciencias de Datos: R o Python

Lesly Zerna
Ciencia y Datos
Published in
3 min readFeb 17, 2019

Hola mundo! vamos a revisar algunas herramientas para trabajar con Ciencias de Datos: lenguaje de programación.
En los últimos años, los lenguajes más populares para trabajar con Ciencias de Datos han sido: Python y R

En mi experiencia personal, he utilizado R como herramienta de estudio mientras hacia la maestría para clases relacionadas con matemáticas y Python para el desarrollo de proyectos más aplicados a ingeniería.
Ambos funcionan bastante bien cuando se utiliza Jupyter Notebook y es recomendable conocer ambos lenguajes.

Algo sobre Python …

Python es un lenguaje de programación multi-paradigma que incluye un gran conjunto de herramientas útiles en su llamada “librería standard”, además goza de una gran comunidad de desarrolladores.

Python es multipropósito, se lo puede utilizar en ciencias de datos, desarrollo y administración de sistemas, construcción de aplicaciones web y scripts, entre otros. Contiene paquetes (“packages”) que ayudan en las tareas de ciencias de datos, por ejemplo, para hacer el análisis exploratorio (EDA exploratory data analysis) y trabajar con inteligencia artificial (redes neuronales y deep learning). Pero por ahora, solo Python puede utilizar TensorFlow.

Ptyhon utiliza un software adicional para el manejo de paquetes como Anaconda, Miniconda, or PIP.

Comparado con R:
* Python no tiene un repositorio centralizado como R, sin embargo, eso no ha sido gran molestia.
* Python tiene un rendimiento más rápido comparado a R.

Algo sobre R

R es un lenguaje multi-paradigma e interpretado, es considerado dentro de la familia de los software para estadística (como SAS y SPSS) ya que es bastante especializado para estadística, análisis y visualización de datos.
R fue creado por estadísticos enfocado en análisis de datos (una gran ventaja sobre Python!)

R tiene un repositorio bastante significativo conocido como CRAN, éste es centralizado y bien mantenido, y contiene los diferentes paquetes disponibles para trabajar con R.

Python vs R

  • Descargando para instalación:
https://www.python.org/downloads/
https://www.r-project.org
  • Después de instalarlo, utilizarlo como calculadora para calcular e⁵:

Python:

import math

math.exp( -5 )

0.00673794699908547

R:

exp(-5)

0.00673794699908547

  • Importando librerías:

Python (asumiendo se hicieron las descargas e instalaciones previas):

from sklearn import datasets

R:

install.packages("caret")

(skelearn y caret son paquetes para trabajar con Machine Learning, para Python y R respectivamente.)

  • Verificando tipos de datos:

Python:

a = "Hi"type(a)

<type ‘str’>

R:

z <- c("Hi")
typeof(z)

‘character’

  • Trabajando con estructuras de datos:

Python:

w = ["Hi", "Hola", "Ciao"]

R:

w <- c("Hi", "Hola", "Ciao")

¿Qué lenguaje utilizar?

Antes de seleccionar el lenguaje a utilizar para el trabajo en ciencia de datos, también es importante considerar cuestiones como las tareas específicas que se realizarán y si estas van a correr en una computadora de escritorio o una portátil (laptop), si se va a utilizar servidores locales, remotos o en la nube.

También se debe considerar, si el trabajo se lo hará para academia, donde R es muy popular o será para la industria, donde predomina Python.

GitHub 2018
https://medium.com/@data_driven/python-vs-r-for-data-science-and-the-winner-is-3ebb1a968197

--

--

Lesly Zerna
Ciencia y Datos

🤖 enthusiastic explorer | AI + Education | startups