¿Qué diablos es Ciencia de Datos?

En la búsqueda de una definición útil

Cassie Kozyrkov
Dec 22, 2018 · 8 min read

Traducido por Carlos Secada del original por Cassie Kozyrkov (editado por Felipe Chiriboga)

Image for post
Image for post

Aquí está mi intento más conciso: “La ciencia de datos es la disciplina de hacer que los datos sean útiles”. Siéntete libre de salir corriendo ahora, o seguir leyendo para explorar sus tres sub-campos.

Un término que realmente nadie definió

  • Big Data (Grandes Datos), que significa más trabajo para las computadoras.
  • Estadísticos que pueden meter los pies en el hielo y la cabeza en el horno, y decir que en promedio están bien.

Y así nace la ciencia de datos. La primera vez que escuché su definición fue “un científico de datos es un estadístico que puede programar”. Te voy a dar mi opinión sobre esta definición en un momento, pero primero, ¿por qué no examinamos qué es la ciencia de datos en sí misma?

Image for post
Image for post
Definición de Twitter circa 2014. “Un científico de datos es un estadístico que vive en San Francisco. Ciencia de Datos es estadística hecha en una Mac. Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de sistemas, y mejor en ingeniería de sistemas que cualquier estadístico.”

Me encanta cuando leo el Journal of Data Science del 2003, en donde hacen una definición “muy precisa” diciendo: “Por 'Ciencia de Datos' queremos referirnos a casi todo lo que tiene algo que ver con los datos”. ¿En serio? ¿todo? Me es difícil pensar en algo que no tenga nada que ver con datos. (Mejor dejo de seguir pensando antes de que me empiece a doler la cabeza.)

Desde entonces, hemos visto una gran cantidad de opiniones, desde el muy difundido diagrama de Venn de Conway (a continuación ) hasta la publicación clásica de Mason y Wiggins.

Image for post
Image for post
Definición de Drew Conway de la ciencia de datos. Mi gusto personal se acerca más a la definición de Wikipedia.

Wikipedia tiene una definición que es muy cercana a la que les enseño a mis alumnos:
La ciencia de datos es un “concepto para unificar estadísticas, análisis de datos, Machine Learning y sus métodos relacionados”, para “entender y analizar fenómenos reales” con datos.

No está nada mal, pero veamos si lo puedo poner aún más sencillo:

“La ciencia de datos es la disciplina de hacer que los datos sean útiles.”

Pueda que ahora estés pensando: “Buen intento. Está bonito, pero es una extraordinariamente mala sobre-simplificación. ¿Cómo así la palabra ‘útil’ puede capturar todo el significado del concepto?
Bueno, está bien, vamos a discutirlo con fotos.

Image for post
Image for post
Este es un mapa de la ciencia de datos, tomado fielmente de la definición de Wikipedia

¿Qué son estas cosas y cómo saber en qué parte del mapa estamos?

La diferencia entre un estadístico y un ingeniero de Machine Learning (ML) no es que uno programe en R y el otro en Python. La clasificación de SQL vs R vs Python es tonta por muchas razones, entre las cuales está que el software evoluciona. (Actualmente, incluso puedes hacer ML en SQL). ¿No preferirías una clasificación que perdure en el tiempo? Si es así, simplemente continúa leyendo y haz de cuenta que no leíste nada de este párrafo.

Tal vez sea aún peor la forma favorita de clasificarla de los novatos. Sí, lo has adivinado: lo hacen por algoritmos (¡sorpresa! Es cómo se estructuran los cursos universitarios). Por favor, por favor, no lo clasifiquen por histogramas vs t-tests vs redes neuronales. En realidad, si uno es inteligente y tiene claro el punto que quiere demostrar, puede usar casi el mismo algoritmo para cualquier parte de la ciencia de datos.
Bueno, ¡basta ya de darle vueltas! Aquí está la clasificación que propongo:

Image for post
Image for post

Ninguno-uno-muchos

Es a través de nuestras acciones — nuestras decisiones — que afectamos el mundo que nos rodea.

Prometí que iba a hablar sobre cómo hacer que los datos sean útiles. Para mí, la idea de utilidad está estrechamente relacionada con influir en las acciones del mundo real. Si yo creo en Papá Noel, realmente no importará hasta que esa creencia pueda influir de alguna manera en mi comportamiento. Luego, dependiendo de las posibles consecuencias de mi comportamiento, podría comenzar a importar muchísimo. Es a través de nuestras acciones, nuestras decisiones, que afectamos el mundo que nos rodea (y hacemos que nos afecte a nosotros también).
Así que aquí está una nueva imagen completamente orientada a la toma de decisiones, con las tres formas principales de hacer que tus datos sean útiles.

Image for post
Image for post

Minería de datos

Regla de oro de la analítica: solo saca conclusiones de lo que puedes ver.

Comienza aquí, a menos que ya sepas cómo estructurar tu toma de decisiones. La buena noticia es que esto es fácil. Piensa en tu conjunto de datos como un grupo de fotos en negativo que las encontraste en un cuarto oscuro de revelado. La extracción de datos consiste en utilizar los equipos para revelar las fotos lo más rápido posible, para que puedas ver si hay algo inspirador o interesante en ellas. Al igual que con las fotos, recuerda no tomarte en serio lo que ves. Tú no tomaste las fotos, así que no sabes mucho sobre las historias que hay detrás de ellas. La regla de oro de la minería de datos es: enfocarse en lo que está aquí. Solo saca conclusiones acerca de lo que puedes ver, nunca a cerca de lo que no puedes ver (para eso necesitas estadísticas y mucha más experiencia).

La experiencia en minería de datos es juzgada por la velocidad con la que puedes examinar los datos.

El cuarto oscuro de revelado es intimidante al principio, pero no se puede hacer mucho al respecto. Solo aprender a utilizar bien el equipo de revelado. Aquí hay un tutorial en R y aquí en Python para comenzar. Puedes llamarte a ti mismo un “analista de datos” tan pronto como empieces el trabajo, y puedes llamarte un “analista experto” cuando puedas revelar las fotos (y todos los demás tipos de conjuntos de datos) a la velocidad de un rayo.

Inferencia estadística

La inspiración es barata, pero el rigor es caro.

Si quieres tomar decisiones importantes, de alta calidad, y con riesgo controlado, que se basen en conclusiones sobre el mundo más allá de los datos disponibles, tendrás que agregar habilidades estadísticas a tu equipo. Un buen ejemplo es el momento en el que tu dedo está dando vueltas alrededor del botón de inicio de un sistema de Inteligencia Artificial (AI) y te viene a mente que debes verificar que funcione correctamente antes de apretarlo (siempre es una buena idea, en serio). Aléjate del botón y llama al estadístico.

La estadística es la ciencia de cambiar tu mente (cuando hay incertidumbre).

Si quieres saber más al respecto, he escrito este super-resumen de estadística de 8 minutos para que lo disfrutes.

Machine learning (Aprendizaje automático)

Image for post
Image for post

Ingeniería de datos

La diferencia entre la ingeniería de datos y la ciencia de datos es la diferencia del antes y el después.

Siéntete libre de ver la diferencia entre la ingeniería de datos y la ciencia de datos como un antes y después. La mayor parte del trabajo técnico que conduce al nacimiento de los datos (antes) puede llamarse “ingeniería de datos” y todo lo que hacemos cuando llegan algo de datos (después) es “ciencia de datos”.

Inteligencia de decisiones (DI)

La inteligencia de decisiones agrega componentes de las ciencias sociales y de gestión.

En otras palabras, es un super conjunto de esos pedazos de la ciencia de datos que no se ocupan de cosas de investigación, tales como la creación de metodologías fundamentales para uso general.
¿Te quedaste con hambre? Aquí hay un detalle de los roles en un proyecto de ciencia de datos para que te entretengas mientras termino de hacer clic en mi teclado.

Obtenga más información sobre ciencia de datos e inteligencia artificial en español aquí.

Ciencia y Datos

Publicación de Ciencia de Datos, Machine Learning, Deep…

Cassie Kozyrkov

Written by

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

Ciencia y Datos

Publicación de Ciencia de Datos, Machine Learning, Deep Learning, Inteligencia Artificial y mucho más en Español. Compartiendo conocimiento para hacer de este mundo un lugar mejor :)

Cassie Kozyrkov

Written by

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita

Ciencia y Datos

Publicación de Ciencia de Datos, Machine Learning, Deep Learning, Inteligencia Artificial y mucho más en Español. Compartiendo conocimiento para hacer de este mundo un lugar mejor :)

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store