Calcula cuántos años durará tu matrimonio con IA | Un vistazo a los casos de divorcio mexicanos

Guillermo Velazquez
LCC-Unison
Published in
5 min readDec 9, 2021
Photo by Sammy Williams on Unsplash

Sin más preámbulos, “calcula” aquí cuantos años durará tu matrimonio.

Consulta aquí el repositorio de github con el código completo.

Visita los perfiles de linkedin de los colaboradores:
Creador: Guillermo Velázquez
Colaborador: Martín Vega

Introducción

Según datos.gob.mx, entre el año 2000 y 2014, se registraron 4,923 casos de divorcio en la ciudad de Xalapa, Veracruz, México. Así como 39 distintas características en conjunto de los divorciados.

Resulta interesante tratar de tomar estos datos, para procesarlos y ver que nos pueden decir acerca de los rasgos más comunes de los matrimonios mexicanos que terminan en divorcio. Así como también, con ayuda de Machine Learning, crear un modelo predictivo que ayude a “calcular” la cantidad de años que un matrimonio durará.

Limpieza de los datos

Antes de comenzar a hacer cualquier tipo de análisis exploratorio, es necesario limpiar los datos. Así, evitaremos introducir algún tipo de sesgo o comportamiento extraño en las métricas y gráficos que creemos.

Carguemos nuestros datos y conozcamos las columnas

Nacionalidad de los divorciados

Como podemos observar, la gran mayoría de los divorcios involucran a mexicanos o mexicanas (exactamente un 99%). Por lo que podríamos prescindir de las muestras que presentan una nacionalidad distinta, ya que nos concentramos en la población mexicana y nos ayudará luego a reducir la dimensionalidad de nuestros datos ya que podremos asumir que no hay variación en este aspecto.

Algo muy similar pasa con otras columnas que hacen referencia a ubicaciones, como el lugar de nacimiento (que a su vez se divide en los ciudad y estado). Y para compensar esto, crearemos una nueva columna, que además de condensar los valores lugar_residencia, representará una nueva característica que puede ser de suma importancia en un matrimonio: ¿viven juntos?

Fechas de nacimiento de la pareja

Al analizar la distribución de los meses, días y años de los divorciados, se observó que no existe alguno que predominara en los datos. Así que no tiene caso conservar estas columnas.

Manejando los valores faltantes

Podemos ver en el gráfico anterior, que hay columnas que presentan muchos valores faltantes. Algunos de estos, en realidad son convenciones de captura, por ejemplo, el número de hijos, que se dejó vacía cuando el matrimonio no tenia ningún hijo, en vez de capturarse un cero.

Por otro lado, algunas como ingreso_mensual no tuvieron una justificación lógica (el valor 0 se capturó explícitamente en muchas muestras), por lo que eran verdaderos valores faltantes y debemos manejarlos para mejorar la calidad de nuestros datos.

Hay ocasiones, como por ejemplo, en el caso de la duración del matrimonio, en el que se pueden imputar datos haciendo uso de otras columnas, en este caso, tomando las fechas de matrimonio y de divorcio para encontrar la duración del primero.

En el caso de la edad, podemos eliminar las muestras que contengan valores faltantes. En primera porque son relativamente pocas, y en segunda porque deseamos crear una nueva columna llamada diferencia_edades, que nos permitirá hacer algunos análisis interesantes.

Análisis de los datos

Menos divorcios en enero

Nivel de educación y profesiones más predominantes

Distribución de edades

Observando la distribución de edades en los casos de divorcio, notamos que la mayoría se concentran entre las edades 30 y 35.

¿Influye la diferencia de edad en un divorcio?

Curiosamente, según los datos, hay un gran número de divorcios en parejas con menor diferencia de edad. Siendo la diferencia de edad de un año la que predomina más, con un 19%

Número de hijos

¿Viven juntos?

Es muy lógico pensar que en los casos de divorcio debe haber una inclinación a parejas que no vivan juntos.

Modelo predictivo

Para el caso de este set de datos, más que intentar predecir variables, nos interesa analizar las características y los patrones que tienen las parejas que se divorcian. Pero para muestra de la calidad de los datos, intentaremos predecir la duración en años de un matrimonio que sabemos que se divorciará. Para ello utilizaremos un modelo ensemble, Random Forest Regressor, que utiliza varios árboles de decisión para hacer una predicción precisa.

Como vemos, nuestro modelo tiene un error absoluto de prácticamente 2 años, lo que es bastante bueno considerando las pocas características que tomamos en cuenta.

Gracias por llegar hasta aquí!

Recuerda que puedes encontrar el código completo en el repositorio de GitHub.

También puedes echarle un vistazo a mi página en Streamlit donde puedes probar el modelo con tus propios datos:

--

--