Come together, right now: Clustering

Ekaropolus Van Gor
Jun 10, 2020 · 3 min read

Análisis de conglomerados es el nombre en español para el análisis de agrupación o “clustering”. En una lectura rápida es más común encontrar el vocablo en inglés. “Clustering” significa encontrar las propiedades de un conjunto de objetos y crear una regla de relación entre ellas. Por ejemplo, si pensamos en puntos en un espacio euclideano, la cercanía entre ellos, la pertenencia o no a un cuadrante o la cantidad de ellos que se encuentren dentro de uno, son reglas de agrupación simples. Como podemos ver en el ejemplo, las reglas de agrupamiento están basadas en propiedades matemáticas de los objetos. Existen muchas y diversas estructuras, tanto matemáticas como reales, a las cuales se les puede hacer “clustering”. Unas de las más interesantes son las gráficas y redes. Posiblemente dentro de la tesis de doctorado hablaré más de ellas.

Diferentes categorías de “clustering”

Aunque podamos pensar como en las series de tiempo que los algoritmos de agrupamiento pueden ser descritos de manera artesanal, nos encontramos con la sorpresa de que dentro del campo existe categorías para los mismos. Finamente esta separación nos da entrada a el tema de “clustering” fuerte, donde ningún elemento puede pertenecer a otra categoría; y de “clustering” difuso y probabilístico. Para entender todo este lenguaje, tenemos que saber cuáles son las categorías básicas:

· “Clustering” por método de partición. Se construyen un número de particiones fijo e iterativamente se van mejorando, cambiando elementos de uno a otro hasta que se cumple un criterio.

· “Clustering” por medio de jerarquías. Las jerarquías pueden ser formadas casi con cualquier propiedad de un objeto. Matemáticamente lo podemos hacer al poner un criterio de separación de distancias y agrupar puntos. Para objetos de la vida real, como nosotros los humanos, una jerarquía de clasificación puede ser el sueldo o la edad que tenemos.

· “Clustering” por métodos de densidad. Los elementos son agrupados dependiendo de las características de los elementos más cercanos. En esta parte “cercano” puede tener muchos significados, pero prácticamente lo tomamos con uno de densidad, es decir la mayor cantidad de puntos cercanos.

· “Clustering” por métodos de cuadricula. En este caso tomas en cuenta las características del espacio en el que están los objetos. Formalmente para cualquier tipo de espacio se puede crear una teselación. En el espacio euclideano es muy fácil imaginárselas, son “rejillas” que zonifican el espacio. Una combinación de criterios que toman en cuenta las propiedades del espacio, sus teselaciones y las propiedades de los objetos, son las que se utilizan para determinar las agrupaciones.

¿El algoritmo de “clustering” más viejo de la historia?

Aunque probablemente algún algoritmo o método de clasificación debería de llevarse este mote, pensemos en encontrar aquel que sea de los primeros y más populares. Mi apuesta personal es por el de los k-centroides. El algoritmo tiene 2 pasos que se repiten constantemente. El primero es elegir un centroide -para la primera iteración- o moverlo -para la siguientes iteraciones-. El segundo es calcular la distancia de cada punto a los centroides y clasificarlo en el que se encuentre más cerca. La parte principal del algoritmo es el movimiento de los centroides, este debe irse refinando en cada paso, haciendo que cada vez más puntos dentro del “cluster” tengan la propiedad de ser todos los que comparten la distancia más cercana al centroide.

Conclusiones

Como podemos ver, el área de los algoritmos de agrupamiento tiene mucho sentido geométrico. A estos momentos es difícil responder a la pregunta si de ellos se pueden obtener información cuantitativa. Una de las direcciones en la que esto podría suceder es en el “clustering” de objetos con mayor grado de complejidad como lo son los grafos, “networks” o redes.

Human Networks

Dreamed by Science, Realized by Data and Wondered by technology

Ekaropolus Van Gor

Written by

A physicist that learned the hard way about business technology, wonders about complexity of the mathematical abstraction of urban processes and loves honey.

Human Networks

Hadox Human Networks delivers publications in science, data and technology to make you proud of your knowledge, and to to make you think the unthinkable.

Ekaropolus Van Gor

Written by

A physicist that learned the hard way about business technology, wonders about complexity of the mathematical abstraction of urban processes and loves honey.

Human Networks

Hadox Human Networks delivers publications in science, data and technology to make you proud of your knowledge, and to to make you think the unthinkable.

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store