Aplicando Data Science para agregar valor a tu organización

Formas prácticas de usar los datos para potenciar tu empresa

Isra Mata
Nowports Tech and Product
7 min readOct 27, 2022

--

Aplicar Data Science en proyectos

Gran parte del valor que puedes aportar como científico de datos va más allá de memorizar las herramientas y los frameworks de aprendizaje automático que existen. Para consolidar tu formación es necesario que apliques lo aprendido y superes los obstáculos que se presenten en el mundo real, y hoy me gustaría ayudarte a lograrlo.

Extraer datos crudos, centralizar múltiples fuentes de información, explorar distintas estrategias y compartir hallazgos en un lenguaje amigable, son solo algunas tareas que debes hacer para desarrollar proyectos de ciencia de datos desde 0. Por eso, mi objetivo con este artículo es que refuerces tus habilidades prácticas y aprendas a generar más valor dentro de tu entorno laboral.

Primero describiré las habilidades involucradas en la ciencia de datos de alto impacto y después, evaluaré un caso real para que identifiques cómo aplicar técnicas de análisis, visualización y modelos de datos.

¡Es momento de empezar!😉

Habilidades analíticas que todo científico de datos debe tener

Un buen científico de datos necesita ser consciente de:

  • Las limitantes estadísticas de su trabajo.
  • El dominio empresarial en el que trabaja.
  • El problema que está resolviendo (el objetivo de su trabajo).
  • La manera de comunicar sus hallazgos de manera efectiva.

De hecho, alguna vez Albert Einstein emitió unas palabras que, llevándolas a esta área, respaldan estas ideas:

“Si yo tuviera una hora para resolver un problema y mi vida dependiera de la solución, yo gastaría los primeros 55 minutos para determinar la pregunta apropiada, porque una vez supiera la pregunta correcta podría resolver el problema en menos de cinco minutos”.

Y, aunque los puntos mencionados anteriormente no son más que habilidades analíticas enfocadas en los datos, de manera general, estas también incluyen:

  • Identificación y definición de problemas.
  • Extracción de información clave a partir de los datos.
  • Prueba y verificación de la causa de los problemas.
  • Desarrollo de soluciones viables.

Casos de estudio de proyectos de ciencia de datos

En su curso, Rajeev Ratan cubre 10 proyectos de ciencia de datos que toda compañía, sin importar su giro, debe realizar, y cada uno es elegido por el valor que puede aportar. Estos son:

Proyectos de analítica
1. Determinar los mejores clientes (los más rentables).
2. Artículos y categorías de artículos más rentables.
3. Valor del tiempo de vida del cliente.
4. Tendencias y pronósticos de la temporada.

Proyectos de predicción de aprendizaje automático
5. Determinar qué clientes probablemente abandonarán su negocio (retención).
6. Segmentación de clientes.
7. Sistemas de recomendación de segmentos de clientes.
8. Análisis de pruebas AB de anuncios o muchos otros cambios (interfaz de usuario, logotipo, etc.).
9. Detección de fraude.
10. Procesamiento del lenguaje natural del sentimiento de las redes sociales.

Ahora bien, para la siguiente sección seleccioné 1 de estos casos para profundizar en el razonamiento detrás de los análisis realizados, con el fin de que puedas comprender mejor su función.

Proyecto: segmentación de clientes

Conocer los hábitos de los compradores ayuda a ofrecer mejores promociones, enfocar las campañas de marketing y a generar nuevos productos o servicios que cubran sus necesidades, pero… ¿cuál es el procedimiento para segmentarlos y alcanzar estos objetivos?

En esta sección analicé el caso de estudio del capítulo 41 del curso de Ratan: Customer Clustering (K-Means, Hierarchical) — Train Passenger.

Segmentación de clientes en ciencia de datos
Foto por Mika Baumeister en Unsplash

Como cualquier otra tarea de datos estándar, el primer paso a dar es explorar lo que se presenta y, antes de iniciar con el análisis de datos exploratorio (EDA), es necesario conocer qué significa cada una de las columnas del set de datos (o al menos la mayoría). Con esto se empieza a complementar el conocimiento sobre el negocio.

Descripción de las columnas del dataset del Capitulo 40 de Ratan
Descripción de las columnas del dataset del Capitulo 40. Disponible aquí

Al separar las columnas por tipos de datos te puedes dar cuenta que hay algunas que, más allá de ser numéricas, son categóricas. Por lo que realizar el promedio de site_name, por ejemplo, no tendría sentido; esto se refiere al número identificador de una página.

Por otro lado, al realizar el análisis de la mediana, o distribución de cuantiles de la cantidad de adultos y niños, sí es posible obtener información útil para segmentar a los clientes.

Mapa de calor de las variables numéricas.
Mapa de calor de las variables numéricas. Disponible aquí

Siguiendo con el caso, para visualizar la relación de los datos entre sí, se debe realizar una matriz de correlación. Para esto es importante elegir colores que ayuden a incrementar la facilidad de lectura del gráfico; el usar colores que contrasten facilita el encontrar y presentar la información.

También sirve crear histogramas que apoyen el descubrimiento de la información que se muestra a los usuarios.

El conjunto de pasos en esta primera exploración ayuda a determinar si existen datos faltantes o erróneos que deben limpiarse. Es vital recordar que cada decisión tiene implicaciones que afectan directamente el resultado final de la segmentación y que, dependiendo del tamaño del set y del porcentaje de la información faltante, se puede optar por imputar los datos que faltan o eliminar esos registros.

Una vez que se entienden los datos, ahora es vital conocer qué otra información se deriva de ellos. Esta es la parte de Feature Engineering, misma que depende del objetivo de la tarea y del negocio.

Para este caso se crearon 2 variables muy sencillas que capturan el comportamiento del cliente: duración y días de antelación. Para mayor claridad de cómo se realiza la segmentación, dividí el proceso en pasos.

Feature Engineering
Captura de pantalla del código del caso de estudio. Disponible aquí

Proceso de segmentación

Paso 1. Elección de variables
Con las variables diseñadas y las preexistentes, existe una variedad de datos a elegir, pero no todas aportan el mismo valor, incluso algunas pueden llegar a entorpecer la segmentación. Por esto, la selección de variables debe guiarse del conocimiento del dominio comercial.

En el material de apoyo se agrupan los datos por ciudad del comprador (user_location_city). Esta elección de agrupación es arbitraria, al igual que la elección de variables tomada para la segmentación, por lo que es recomendable siempre realizar pruebas usando diferentes agrupaciones y diferentes variables para segmentar, de esta manera se logra un punto de referencia sobre qué tan útil resulta la segmentación final de los clientes.

Paso 2. Estandarizar los datos
La magnitud de las grandes variaciones afecta los algoritmos de aprendizaje automático. Por eso estandarizar los datos es crucial.

Paso 3. Implementar un algoritmo de segmentación
Ahora, ¿cómo se decide el número de segmentos o clusters? La realidad es que hay varios métodos que ayudan a determinarlo. Lo ideal es intentar varios y comparar resultados.

Dependiendo del tiempo y los recursos disponibles se determina la cantidad de experimentos a realizar. En este caso, se exploró el Elbow Method y el coeficiente de Silhouette.

Tratándose de un problema con múltiples variables, se puede usar una técnica de reducción de dimensionalidad llamada Principal Component Analysis (PCA) para minimizar la cantidad de dimensiones y visualizar los segmentos.

En el material proporcionado por Ratan se elige n igual a 2. Aunque otra alternativa más atractiva visualmente es utilizar n igual a 3 para modelar un diagrama en 3D.

Representación en 2D de los segmentos generados
Representación en 2D de los segmentos generados. Disponible aquí

En la siguiente gráfica del Elbow Method te puedes dar cuenta de que no hay un punto claro de cambio pronunciado, lo cual da poca información sobre la cantidad adecuada de segmentos a usar. Por otro lado, el coeficiente de Silhouette alcanza su punto máximo en 3 clusters:

Gráfica de las distancias cuadradas obtenidas usando distintas cantidades de clusters
Gráfica de las distancias cuadradas obtenidas usando distintas cantidades de clusters (k). Disponible aquí

Paso 4. Analizar los segmentos
Ya con la cantidad de clusters, se agrupan los usuarios de cada segmento para analizar sus características.

Nota que la agrupación sucede al nivel de segmento (cluster), lo que ocasiona que el promedio de algunas columnas, como user_location_city no aporten datos. El promedio numérico de una columna categórica rara vez tiene relevancia.

Promedio de las características de los distintos segmentos
Promedio de las características de los distintos segmentos. Disponible aquí

¡Y listo! Se logró dividir a los clientes en 3 categorías. Esta información ahora es muy valiosa para generar estrategias de ventas, marketing y de diseño de productos.🙌

Ahora… ¿con esto se termina? La respuesta es no. Aún hay más cosas que se pueden realizar con esta información.

Y otra pregunta que también resulta interesante aclarar es: ¿qué características son las que determinan que un cliente pertenece a un segmento? Esto se puede explorar construyendo un modelo de clasificación supervisando y especificando la importancia de las características, por ejemplos.

Cualquier empresa de producto o servicio puede obtener valor de un proyecto de segmentación de clientes. Sin embargo, no hay que perder de vista que con el paso del tiempo un cliente puede pasar de una categoría a otra, e incluso pueden surgir otros tipos de clientes.

Por esta razón, tomar en cuenta la naturaleza dinámica y la fecha de expiración de tus experimentos puede ser el determinante que lleve a tu empresa al éxito.

Muchos problemas, muchas respuestas

Mas allá de brindar una sola respuesta correcta, aplicar la ciencia de datos ayuda a tomar mejores decisiones empresariales.

Un proyecto de alto impacto tiene la capacidad de tomar datos crudos y transformarlos en información que empodera a colaboradores de todos los niveles. Por eso, entre más grande sea la empresa, más específicos se pueden volver los proyectos.

Ten presente que el éxito de un proyecto no radica en su complejidad, ni en su tamaño, sino en el impacto que genera. Es por eso que para poder generar valor con la ciencia de datos necesitas complementar tus habilidades matemáticas y estadísticas con el entendimiento del negocio.

¿Quieres leer más temas relacionados? 👉Visita el blog de Nowports Tech👈

--

--