El grupo de Whatsapp de la prepa

Analisis basado en Whatsapp Group Chat Analysis using Python and Plotly de Saiteja Kura.

Luis Armando Moreno
MCD-UNISON
6 min readOct 7, 2020

--

En la actualidad, los usuarios de Whatsapp nos encontramos en al menos un grupo de excompañeros de escuela. Ya sea de primaria, secundaria, preparatoria o universidad, estos grupos se han convertido en un espacio de nostalgia (aunque no siempre bienvenida) que ha permitido mantener contacto con algún compañero del que no se tuvo noticia por algún tiempo.

Para conocer un poco sobre qué se comenta o comparte en esta clase de grupos, tomé de ejemplo el grupo de Whatsapp de mi escuela preparatoria, a poco más de 20 años de haber egresado.

El presente análisis se basa en el trabajo de Saiteja Kura en su artículo Whatsapp Group Chat Analysis using Python and Plotly, con algunas modificaciones al código según fue necesario por idioma y las características del grupo.

Obtenemos y limpiamos la información

Para obtener la información del chat, hacemos uso de la función que Whatsapp para exportar los mensajes de las conversaciones en archivos de texto (.txt). En este caso, se exportó el chat del grupo sin archivos multimedia.

Ejemplo
Ejemplo

Se le da tratamiento a la información del archivo de texto para poder ser utilizado en nuestro análisis. El siguiente código de Python permite el parseo, tokenizado, y limpiado de la información (más información sobre este paso en el post original).

El dataframe y la anonimización de los datos

Para poder continuar con el análisis es necesario crear el dataframe. Para ello definimos las columnas Date (fecha), Time (hora), Author (autor), Message (mensaje) en el siguiente código. A su vez, anonimizamos los datos de los miembros del grupo para compartir el análisis, en este caso utilizamos los nombres de los personajes de El Señor de los Anillos.

Estadísticas generales

Con el dataframe ya tratado, podemos generar nuestras primeras estadísticas generales del grupo. Por ejemplo, podemos conocer el número total de autores, la cantidad de mensajes , el número de emojis enviados, contenido multimedia y enlaces enviados.

Nuestro grupo tiene 82 miembros activos (es decir aquellos miembros que han mandado al menos un mensaje), los cuales han enviado 39,732 mensajes, 7,813 archivos multimedia (fotos y video), 13,437 emojis, y 349 enlaces a sitios web.

Los 39,972 mensajes en nuestro archivo hay más de un millón de palabras

Nube de palabras

Una nube de palabras nos puede dar una idea general de lo que se comenta en nuestro grupo de Whatsapp, y visualizar cuales, de ese poco más de millón de palabras, son las utilizadas con mayor frecuencia. El siguiente código nos permite realizar la nube de palabras y colocarla dentro del contorno de un jaguar, la mascota de la preparatoria.

El tamaño de las palabras en la nube es proporcional a su frecuencia de uso.

Sobresale la palabra “felicidades”, lo que supone un ánimo de celebración dentro del grupo, en la mayoria de las ocasiones explicado por los cumpleaños de los miembros, aunque podrían presentarse otras razones.

Estadísticas por autor

Las estadísticas pueden ser obtenidas por autor o miembro del grupo:

Algunos ejemplos (por motivos de espacio no se agregan todos):

Para una mejor visualización de la actividad de los miembros del grupon, podemos encontrar quienes son los 15 más activos:

En el gráfico anterior se puede observar que tres autores superan en gran medida la actividad del resto de los miembros del grupo

Línea de tiempo y actividad

Asimismo, podemos conocer la frecuencia de los mensajes a través del tiempo, y dar cuenta que Whatsapp exportó mensajes de nuestro chat que van desde noviembre de 2019 a septiembre de 2020.

Los 10 días de mayor actividad son los siguientes:

Como podemos observar, el día de mayor actividad fue el 4 de enero de 2020, el primer sábado del año.

Otro dato interesante para conocer es las horas del día con mayor frecuencia de mensajes, lo cual se puede obtener de la siguiente manera:

Al ser un grupo de adultos entre 38 y 42 años que trabajan, la mayor cantidad de mensajes se produce durante la hora de la comida.

De igual forma, podemos conocer los días de la semana con mayor actividad. En el caso de este grupo, la actividad aumenta el jueves y el viernes, mientras que disminuye notablemente el domingo.

Emojis: total enviado y los más populares

Mediante nuestro análisis podemos saber el número de emojis únicos enviados en el grupo.

Un buen indicador del ánimo de un grupo de whatsapp es conocer qué emojis son los más utilizados, para ello contabilizamos la incidencia de los 557 emojis utilizados.

Los emojis más populares en este grupo son aquellos que expresan risas. Estos datos pueden expresados en un gráfico de pastel para una mejor visualización.

Es interesante saber qué emojis son los más utilizados por cada autor, lo cual nos puede reflejar la manera de interactuar de cada uno de ellos dentro del chat.

Si bien algunos miembros del grupo reflejan en su uso particular lo que se observa en el gráfico general, es decir, utilizan emojis para expresar risas:

Gram

Algunos tienen otras prioridades:

Hugo
Sapphira

Y otros tienen actitudes muy distintas al resto.

Eärendur

Comentarios finales

Como se puede observar en los resultados, el ánimo del grupo es de diversión y camaradería, lo que se puede esperar de personas con más de 20 años de conocerse, que en la mayoría de los casos no conviven en persona diariamente.

El presente ejercicio fue realizado para la materia de Ingeniería de Características de la Maestría de Ciencia de Datos de la Universidad de Sonora, no puedo negar que ha sido bastante divertido y me permitió la práctica de habilidades en Python. A su vez es replicable a otros grupos de Whatsapp.

Agradecimiento a Saiteja Kura.

Jupyter Notebook con el código completo.

--

--

Luis Armando Moreno
MCD-UNISON

Economista, estudiante de la Maestría en Ciencia de Datos de la Universidad de Sonora.