Las herramientas de trabajo del Científico de Datos

Dentro de la parte de ingeniería, relacionada con la construcción de sistemas para el tratamiento de los datos, destacan tres herramientas básicas para empezar a desenvolverse en el análisis de grandes volúmenes de información: Python, R y Hadoop. Se trata de lenguajes de programación relativamente recientes y por ello no tan extendidos, aunque son más fáciles de asimilar por los profesionales que ya dominan lenguajes anteriores, como Java o C.

R Project

Considerado el estándar entre los lenguajes de programación estadística, conocido por algunos como “el chico de oro” de la Ciencia de Datos. R es un entorno de software libre dedicado al cálculo estadístico y los gráficos, compatible con plataformas UNIX, Windows y MacOS. Es un must común en la Ciencia de Datos, y casi una garantía de encontrar empleo para quien lo domine, dado el creciente número de aplicaciones comerciales y la ventaja de su versatilidad.

  • R es gratuito: cualquiera puede instalar, utilizar, actualizar, clonar, modificar, redistribuir e incluso revender R. Así que no sólo permite ahorrar en los proyectos tecnológicos, sino que aporta constantes actualizaciones, siempre útiles en el lenguaje de programación estadístico.
  • R es un lenguaje de alto rendimiento, que ayuda a manejar grandes paquetes de datos, lo que lo convierte en una gran herramienta para el manejo de Big Data. También es ideal para simulaciones intensas, que consumen muchos recursos.
  • Dadas todas sus ventajas, es natural que sea cada vez más popular. Cuenta con alrededor de 2 millones de usuarios, que conforman una comunidad activa y colaboradora. Existen más de 2.000 librerías gratuitas con recursos estadísticos dedicados a las finanzas, el análisis de clusters, y mucho más.

Python

Otro lenguaje de programación open source, flexible y sencillo. Un programador trabajando con Python debe escribir menos código gracias a sus características “amigables” para principiantes, como la legibilidad del código, una sintaxis simplificada y la facilidad de implementación.

  • Igual que con R, la programación en Python encuentra acomodo en una gran variedad de industrias y aplicaciones. Python está detrás del buscador de Google, así como de YouTube, DropBox o Reddit. Instituciones como la NASA, IBM y Mozilla también dependen en gran medida de Python.
  • Python también es gratuito, lo que beneficia a startups y pequeñas empresas. Dado que el lenguaje tiende a la simplificación, puede ser manejado por equipos reducidos. Y un buen conocimiento de los fundamentos de este lenguaje orientado a objetivos permite migrar a cualquier otro lenguaje similar aprendiendo sólo la sintaxis del nuevo lenguaje.
  • Como lenguaje de alto rendimiento, Python es la opción elegida con frecuencia para construir aplicaciones rápidas. Y su enorme librería de recursos permite que la ayuda necesaria para mantener la productividad se encuentre a unos pocos clics de distancia.

Hadoop

Otro indispensable en el fondo de armario de cualquiera que quiera adentrarse en el análisis de Big Data. Disponible como un framework de código abierto, Hadoop facilita el almacenamiento y proceso de enormes cantidades de datos. Se considera la piedra angular de cualquier plataforma de datos flexible con vistas al futuro.

  • Hadoop destaca como una de las tecnologías con mayor potencial de crecimiento dentro de la industria de los datos. Empresas como Dell, Amazon Web Services, IBM, Yahoo, Microsoft, Google, eBay y Oracle están apostando fuerte por la implementación de Hadoop.
  • Una de sus grandes aportaciones consiste en ayudar a la organizaciones en sus demandas de marketing: identificando patrones de comportamiento de los clientes en la web, proporcionando recomendaciones y targeting personalizados, etc.
  • Hadoop abre grandes oportunidades laborales en una amplia variedad de puestos. Dado su acomodo en multitud de industrias, los especialistas en Hadoop pueden encontrar colocación como Arquitecto, Desarrollador, Administrador o Científico de Datos.

Otras herramientas

Otra interacción frecuente en el trabajo del Científico de Datos se produce con las bases de datos. Aquí es habitual trabajar con bases de datos NoSQL, Apache Storm y herramientas de procesado como Spark.

Las herramientas de visualización no son tan importantes para crear valor como para convencer. En este sentido, están asociadas con la fase de comunicación de resultados y con el propio trabajo de redescubrimiento del valor de los datos: no es lo mismo navegar entre números que presentarlos. Para ello se emplean programas como QlickView, Tableau o Spotfire.

Por último, existe una parte poco glamourosa del trabajo del Científico de Datos consistente en pelearse con los datos, una tarea conocida en inglés como data wrangling. A menudo, los datos en bruto se presentan de manera confusa o imperfecta, por lo que es necesario recopilar y limpiarlos manualmente para convertirlos a un formato estructurado que pueda ser explorado y analizado. Y esta es una tarea que puede ocupar más del 50% de la jornada del Científico de Datos, empleando herramientas como OpenRefine o Fusion Tables.

¿Open source o software propietario?

Como en cualquier área donde se requiera trabajar con un software específico, los profesionales de la Ciencia de Datos pueden optar entre programas comercializados por empresas privadas y programas de código abierto.

Antes de embarcarse en un proyecto de Ciencia de Datos, es muy importante conocer exactamente las necesidades tecnológicas que va a requerir, para así ajustar recursos y presupuestos. Esta es una de las razones por las que cada vez más empresas optan por la flexibilidad de las alternativas de código abierto. La variedad de opciones surgidas del entorno open source ha contribuido además a expandir el conocimiento y uso de nuevas tecnologías. Herramientas comerciales de pago que hasta no hace mucho tiempo dominaban el mercado ven cómo cada vez se reduce más su protagonismo ante las alternativas gratuitas.

Algunos expertos alertan de los fabricantes que tratan de imponer sus soluciones comerciales a las empresas, que terminan invirtiendo grandes sumas en aplicaciones propietarias que siempre disponen de una alternativa de código abierto. Esta especie de cautividad es reemplazable por proyectos open source, escalables y capaces de ofrecer un rendimiento equiparable al del software propietario.

___________________________________________________________________

Este artículo forma parte del estudio “Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?”, próximamente disponible en Rebel Thinking.