¡Data Science Para Todos!

Cristóbal V
Ciencia y Datos
Published in
11 min readMay 7, 2021

Breve resumen por los rincones del Data Science y la Inteligencia Artificial

Imagen por Radowan Nakif Rehan en Unsplash

En este Artículo Comprenderás:

  • Qué es el Data Science y la Inteligencia Artificial.
  • Metodos, procesos, tecnicas y herramientas utilizadas en el Data Science.
  • Qué es el Big Data, Data Mining, Machine Learning, Deep Learning y Web Scraping.
  • Procesos o Ciclo de Vida del Data Science.
  • Perfiles profesionales requeridos para trabajar en Data Science.

Hoy en día, muchos términos como Inteligencia Artificial, Aprendizaje Automático, Redes Neuronales, Business Intelligence, Data Science, etc, pueden ser encontrados en la inmensa cantidad de servicios que ofrece el internet, los medios de comunicación y las entidades de educación. Un estudio publicado recientemente por Market Study Report estima que el mercado global de plataformas de Data Science tendrá una tasa de crecimiento anual compuesto del 30% hasta el año 2026.

Los oímos en los noticiarios, ofertas de trabajo, artículos de innovación y emprendimiento, universidades, entre muchos otros. Pero ¿Que son realmente estos conceptos? y ¿porque están tan de moda?

Para poder ordenar las ideas, comprender estos conceptos y como se relacionan entre ellos, es necesario que primero podamos entender que son los datos y los metadatos.

Los datos son para la humanidad “Información concreta sobre hechos, elementos, etc., que permite estudiarlos, analizarlos o conocerlos”.

Para un computador, los datos no son más que “Cifra, letra o palabra que representa información la cual se suministra a la computadora como entrada y la máquina almacena en un determinado formato”.

Los metadatos por su parte son básicamente “datos que describen la información contenida en otros datos”.

Con el desarrollo tecnológico moderno, la información, en forma de datos, se crea en grandes cantidades y de manera casi instantánea, la cual no alcanza a ser procesada totalmente utilizando los métodos tradicionales de análisis. Como ejemplo, podemos considerar a las redes sociales, las que son utilizadas por personas para interactuar de una manera digital. Cada interacción, la cual puede ser un comentario, un like, subir una foto, compartir un video, queda registrado en la web, y este registro, precisamente se convierte en información de uso público que puede ser analizado para diversos fines. Ahora bien, si sumamos cada interacción que una persona hace en promedio al día en una red social, y la multiplicamos por el total de habitantes del planeta tierra que usan redes sociales, ¡el resultado serían toneladas de información que se podría analizar para diversos fines!

La ciencia a su vez ha estado en constante desarrollo y en perfeccionamiento de tecnologías, gracias a todos los avances que han ocurrido en esta década. Esto posibilitó la introducción comercial de herramientas científicas, matemáticas e informáticas, que por mucho tiempo estuvieron olvidadas en laboratorios de universidades prestigiosas y artículos de investigación científica. Sin embargo, las empresas se dieron cuenta de que podían aplicar estas herramientas para lidiar con el manejo de información, de una manera óptima, rápida y menos costosa para una mejor toma de decisiones del negocio.

De un modo general, estas fueron las causas que llevaron al boom de la Ciencia de Datos, la cual definiremos a continuación con la siguiente figura:

Figura1: Ciencia de Datos por AnaBayes

Podemos definir a la Ciencia de Datos (DS) como un “Campo interdisciplinario que involucra métodos, procesos y sistemas de la Computación, Matemáticas, Estadísticas y el área a la cual se quiere aplicar, para investigar y sacar ventaja de la información que dan los datos”. Este campo, procura mantener un equilibrio entre los campos mencionados.

Como anécdota, se puede visualizar en la figura 1 un unicornio rosado. Se dice que los Data Scientists (profesionales dedicados a la ciencia de datos) son como unicornios, “todos saben lo que son, pero nadie ha visto a uno”. Esto se debe a que la mayoría de ellos aún están formándose en instituciones de educación superior o bien son mayoritariamente, estadistas, matemáticos e informáticos que no suelen tener formación específica en el área del negocio.

Entonces ahora que ya comprendemos mejor que es la Ciencia de Datos, ¿en qué parte entra la Inteligencia Artificial, Aprendizaje Automático, Big Data, Redes Neuronales, etc.?

Veamos la siguiente figura para entender mejor los conceptos:

Figura 2: Ciencia de Datos e Inteligencia Artificial por OpenWebinars

Como se puede observar en la figura 2, la Ciencia de Datos y la Inteligencia Artificial, son áreas del conocimiento distintas, sin embargo, se relacionan para poder lograr mejores objetivos ya que al fin y al cabo podríamos decir que cada una depende de la otra. Estas áreas del conocimiento cuentan con distintas metodologías y técnicas para llevar a cabo sus objetivos, por ejemplo, la Ciencia de Datos utiliza el Big Data y el Data Mining, a su vez la Inteligencia Artificial requiere del Machine Learning y el Deep Learning.

La Inteligencia Artificial (IA) es un “campo que tiene como objetivo imitar la inteligencia natural humana, por medio de algoritmos y tecnología para resolver problemas complejos y aumentar las posibilidades de éxito”. Existen muchos mitos sobre la IA como que los robots van a dominar el mundo o que las empresas nos van a controlar por chips con 5g, pero tranquilos, este meme muestra cómo se aplica al día de hoy la Inteligencia Artificial en la mayoría de las situaciones cotidianas.

Figura 3: El Futuro con Inteligencia Artificial por ErizosMX

Antes de explicar los conceptos mencionados dentro de la Ciencia de Datos y la Inteligencia Artificial en la figura 2, es importante entender la lógica para estructurar y relacionar los términos, lo que otorgará un mejor entendimiento sobre en qué parte de la cadena de procesos, se utilizan estos conceptos.

El Proceso de la Ciencia de Datos se puede visualizar en la siguiente figura:

Figura 4: El Proceso de la Ciencia de Datos por Chanin Nantasenamat

A modo general, el Proceso de la Ciencia de Datos consta de 5 etapas las cuales son desarrolladas como mínimo por 4 perfiles profesionales.

1- Data Collection:

En esta primera etapa se extraen, coleccionan y/o almacenan los datos que se necesitan estudiar. Las metodologías básicas para desarrollar esta etapa son:

  • Web Scraping: Son técnicas informáticas utilizadas para extraer datos de la internet. Usualmente simulan la navegación de un ser humano en páginas webs.
  • Big Data: Es una rama que busca formas de extraer y almacenar información de manera sistemática y lidiar con datos que son demasiado grandes o complejos para ser tratados por las técnicas tradicionales de procesamiento de datos. Generalmente los datos son guardados en sistemas de almacenamiento denominados “Data Warehouse” que incluyen diversos tipos de bases de datos.
  • Data Mining: Es el proceso para clasificar grandes conjuntos de datos, identificando patrones y estableciendo relaciones para resolver problemas con el análisis de datos.

2- Data Cleaning:

En esta etapa, se limpian los datos, y se les da la estructura adecuada para los objetivos de análisis en los que serán utilizados, por ejemplo:

  • Eliminar datos que no existen.
  • Crear categorías condicionales para clasificar datos.
  • Cambiar el tipo de dato (numerico, decimales, texto).
  • Diferenciar entre datos cualitativos y cuantitativos.

Para entender mejor la diferencia entre datos cualitativos y cuantitativos, la siguiente figura lo resume de una manera muy simple:

Figura 5: Metodo Cuantitativo y Cualitativo por QuestionPro

3- Exploratory Data Analysis:

La etapa de exploración y análisis de datos busca conocer y comprender los datos disponibles para elaborar planes de acción que permitan obtener información más relevante para los objetivos del análisis. Se suelen utilizar los dos enfoques fundamentales de la estadística las cuales son:

  • Estadística Descriptiva: Métodos empleados para resumir las características relevantes de los datos conocidos (disponibles). Se utilizan métricas como la media, mediana, moda, varianza, desviación estándar, etc.
  • Estadística Inferencial: Métodos que implican el uso de datos muestrales para hacer generalizaciones o inferencias acerca de una población o datos no conocidos (no disponibles). Se utilizan técnicas como la correlación, regresión, análisis de varianza, etc.

Para ambos enfoques se suelen utilizar gráficos como histogramas, gráficos de barra, gráficos de línea, gráficos de punto, gráficos de caja, etc. Los que permiten comprender y explorar de mejor manera los datos a analizar.

4- Model Building and Model Deployment

Se crean los algoritmos necesarios para modelar los datos y realizar predicciones cuantitativas o cualitativas, dependiendo de los objetivos en los que se quieran utilizar los datos. En estas etapas es donde se generan los modelos que se aplican a servicios que utilizamos en el día a día, como, por ejemplo; Sistemas de Recomendación de películas de Netflix, Asistentes Virtuales, Detección temprana de Cáncer en Radiografías, Algoritmos que muestran publicidad en base a ultimas búsquedas realizadas por un usuario en Google, etc.

La mayoría de los modelos se basa en tres enfoques, Clasificación, Predicción y Agrupación de Datos.

Generalmente en el desarrollo de modelos, es donde se utilizan las áreas de Inteligencia Artificial dependiendo del enfoque que se quiera modelar de los datos. Estas áreas se pueden definir en las siguientes:

Machine Learning: El Aprendizaje Automático o Machine Learning, utiliza modelos estadísticos y matemáticas para modelar datos los cuales pueden ser usados en tareas de Predicción, Agrupación o Clasificación.

Deep Learning: El Aprendizaje Profundo o Deep Learning va un poco más allá del Machine Learning, ya que aplica modelos de vanguardia y en constante investigación para desarrollar tareas complejas tales como;

  • Procesamiento del Lenguaje Natural: Que el computador comprenda el lenguaje humano.
  • Procesamiento de Imágenes o Videos: Que el computador comprenda el contenido que hay en una imagen o video.
  • Sistemas Expertos: Que el computador tenga conocimiento en áreas de alta complejidad y muy específicas, sirviendo muchas veces como un asistente consultor.
  • Internet of Things con IA: Conectar a través del internet, objetos cotidianos de nuestros hogares, los cuales puedan tener algún grado de conocimiento del contexto y puedan comunicarse entre ellos.

Los algoritmos aplicados al Deep Learning, poseen estructuras matemáticas abstractas, las cuales suelen ser representadas en Redes Neuronales Artificiales, definidas como “Modelos complejos que buscan emular del funcionamiento del cerebro y su sistema nervioso”. Ejemplos de estos modelos son:

  • Bert: Sistema de Redes Neuronales utilizado para clasificar texto con alto grado de certeza.
  • GPT-3: Sistema de Redes Neuronales utilizado para generar texto que simulan la redacción humana.
  • NeRF: Red Neuronal utilizada para generar videos 3D en base a fotografías.
  • AlphaFold2: Red Neuronal que predice estructuras de proteínas a partir de sus secuencias de aminoácidos.

5- Reportería Gráfica

Existe una 5ta etapa que no suele ser representada en el ciclo de procesos de la Ciencia de Datos, pero es importante considerarla ya que tiene como objetivo generar visualizaciones interactivas y simples para mostrar los resultados generados en los datos.

La Reporteria utiliza herramientas de visualización en línea como Power BI, Tableau, Qlik, incluso Excel, los cuales generan gráficos, tablas, indicadores, mapas geográficos, entre otros.

Al presentar un buen Dashboard, el cual se puede definir como un “Panel que muestra a través de la visualización de datos, los elementos más importantes a considerar para el usuario, cliente o negocio”, facilitará la toma de decisiones y la comunicación de resultados a personas ajenas al área del conocimiento del negocio.

Existe una estrategia organizacional aplicada en esta etapa denominada Business Intelligence la cual “busca aumentar la competitividad del negocio por medio de la gestión de sus datos históricos.”. Esta estrategia utiliza las herramientas de visualización de datos y se apoya en la reporteria grafica para lograr sus objetivos.

Perfiles de Trabajo para la Ciencia de Datos

Por último, pero no menos importante, se debe comprender cuales son los perfiles profesionales de las personas que trabajan en estos campos, los cuales, al fin del día, son las mentes maestras detrás de los avances tecnológicos asociados a la Ciencia de Datos y la Inteligencia Artificial:

  • Ingeniero de Datos (Data Engineering): Profesional enfocado en el diseño, desarrollo y mantenimiento de los sistemas de procesamiento y almacenamiento de datos dentro de un proyecto.
  • Analistas de Datos (Data Analyst): Profesional que transforma los datos en información para poder llevar a cabo una toma de decisiones más completa. Se encarga del procesamiento y exploración de la información contenida en los datos.
  • Ingenieros de ML e IA (ML or AI Engineering): El Ingeniero de Machine Learning y/o Inteligencia Artificial se encarga de crear modelos y algoritmos matemáticos para agregar valor a los datos y así aportar mayor información a los resultados.
  • Analista de Negocios (Business Analyst): El analista de negocios o Business Analyst se encarga de la estrategia de Business Intelligence y de elaborar visualizaciones interactivas con los datos ya procesados para reporteria gráfica, los cuales servirán para la toma de decisiones finales por parte de la organización del proyecto.
  • Científico de Datos (Data Scientist): Profesionales con alto grado de especialización, generalmente poseen Postgrados en Estadística, Informática o Matemáticas. Desarrollan sus labores en todas las etapas del proceso de la Ciencia de Datos, por lo que son los que llevan la planificación, ejecución y control del proceso completo de un proyecto.

Conclusión

Como vimos, el Campo Interdisciplinario de la Ciencia de Datos, incluye una gran cantidad de técnicas, procesos y métodos de diversos campos del conocimiento, lo que permite facilitar la toma de decisiones en una organización, trayendo beneficios como la optimización y rapidez en los análisis realizados. Al día de hoy, constantemente se siguen creando y mejorando las tecnologías utilizadas en la Ciencia de Datos, por lo que esperamos que, en un futuro cercano, los resultados obtenidos con este campo sirvan para comprender y solucionar de mejor manera los problemas que vayan surgiendo en nuestra sociedad, porque después de todo, tomar mejores decisiones implica cometer menos errores, y esto a su vez genera menos problemas para nosotros y los demás.

Para Terminar, les dejo un Meme que muestra las expectativas versus la realidad del hoy en día al trabajar como un Científico de Datos.

Figura 6: Expectativa Vs Realidad de los Científicos de Datos por 2x4

Mis Otros Artículos

--

--