Fantásticas series de tiempo y como minarlas

Ekaropolus Van Gor
Jun 9, 2020 · 6 min read

Una de las primeras gemas a minar dentro de los datos son las series de tiempo. Son una de las más comunes -75% de las gráficas en los periódicos son series de tiempo-. Naturalmente nosotros hemos acoplado nuestras decisiones y herramientas a perseguir una base temporal, a encuadrar actividades en rangos de tiempo. Desde la medicina hasta las finanzas, series de tiempo como la de los electrocardiogramas o el flujo de efectivo, son datos que existe y son almacenados de diversas formas. Los algoritmos de minado piensan a las series de tiempo más que en sus componentes, en su forma representativa. Seguir un patrón visual formada por una gráfica de una serie y compararla con otra es un trabajo que se ha formalizado mediante variados algoritmos de clasificación, agrupamiento y detección de anomalías.

La Minería de datos (“DM — Data Mining”) también conocida algunas veces como el descubrimiento de conocimiento a través de los datos (“KDD — Knowldege Discovery from Data”), es una actividad para descubrir patrones relevantes o interesantes en los datos. El campo ha evolucionado de ser un módulo de las tecnologías de la información a ser un área de conocimiento multidisciplinar. En casi cualquier aspecto del mundo actual, tenemos datos relacionados con ellos. Desde los datos de compañías, preferencias de consumo, mediciones de sensores, distribución de medicamentos, reacciones y emociones en redes sociales, discusiones sobre tópicos en canales digitales, los ensayos en variados temas. En estos y más lados tenemos acumulaciones más allá de los petabytes.

Aún por descubrir, tenemos a la relación causal entre datos e hiper conectividad. Lo anterior es entender como la digitalización aumenta nuestras relaciones. Una hipótesis establece que entre más nos relacionamos, más datos generamos. En un converso, otra hipótesis, estima que entre más datos generamos, tenemos más formas de relacionarnos. Lo que sabemos que ambas ayudan a conocer cómo funciona la evolución natural de la información. Para entenderla, debemos de comprender una sutil unión entre la teoría de la información y la minería de datos.

¿Qué es una fantástica serie de tiempo?

Las series de tiempo son un tipo de dato complejo, así como las secuencias simbólicas o biológicas. Como su nombre lo dice, las series de tiempo son una secuencia de datos numéricos grabados a espacios de tiempo iguales. Los intervalos de tiempo pueden ir desde los microsegundos hasta meses o años, algunos de estos valores tienen que ver con el tipo de aplicación. Como ejemplo, las series de tiempo provenientes de sensores están medidas en series pequeñas como microsegundos, segundos y minutos para los valores de lectura de ionización del ambiente, vibración y temperatura -de manera correspondiente-. Lecturas del tipo semanal, mensual y anual son utilizadas en los reportes de venta o facturación. Datos espaciados por horas o días corresponden a los ejemplos de la bolsa de valores.

¿Cómo cuidar una fantástica serie de tiempo?

De una forma tradicional, las series de tiempo son analizadas por un conjunto de valores de tendencia. Especificando la dirección general, se obtiene la tendencia a largo plazo. Muchas veces pueden ser encontrados ciclos -en los datos sensoriales de internet de las cosas de manera muy común-. Variaciones por temporada los cuales son sub-patrones que pueden ser encontrados en cada cierta repetición de intervalos a un mayor nivel. Finalmente, también son puntos importantes los valores aleatorios y pseudo aleatorios. Estos son la entrada al estudio de la complejidad y caos dentro de las series de tiempo.

El análisis de secuencias en las series de datos corresponde a la búsqueda de sub-patrones repetitivos. Estos pueden ser vistos a diferentes tiempos y con granularidades diferentes. Un patrón fractal es aquel que se observa en varias dimensiones. Esta última parte es un área activa en el análisis de pronósticos. Reducciones de dimensionalidad por transformadas discretas de Fourier o en componentes de análisis. La reducción permite rescatar valores descriptivos de las secuencias, permitiendo una visualización de patrones más clara. Una de las aplicaciones actuales de la reducción consiste en la interpretación de secuencias de tiempo como secuencias de símbolos, permitiendo la entrada de algoritmos de análisis del tipo NLP.

Algoritmos para dominar a tus fantásticas series de tiempo

Una de las fascinantes propiedades de las series de tiempo en el mundo real es que hay una diversidad grande de ellas. Su limpieza es más una actividad de “clasificación” de formas o indexación. El aparato para hacerlo es una función de distancia que te permite comparar punto a punto 2 o más series de tiempo. Aquí es donde comienza la magia, porque existen muchas funciones de distancia, cada una de ellas con propiedades que nos ayudan a entender ciertos tipos de series de tiempo. Para un mejor entendimiento pensemos en la función de distancia estándar que corresponde a la norma euclideana. Esta es similar a la acción de medición como la haríamos en con una regla o metro. De esta manera es que podemos intuir que diferentes reglas o dispositivos de medición más complicados pueden llegar a medir otras propiedades. Imaginen que no solamente queremos medir la distancia entre dos puntos, sino que además queremos medir la curvatura intrínseca relacionada con la forma de la serie de tiempo. En resumen, nuestras armas para entender las series de tiempo son una gran variedad de funciones de medición.

Con nuestras funciones de medición a la mano, existen varias actividades que podemos hacer con una serie de tiempo. Vamos a enumerarlas y dar una explicación de ellas pensando a las series de tiempo como cuerdas:

· Indexación, que significa medir que tan similares son dos series de tiempo o lo que es lo mismo, verificar que tan parecidas son las curvas de dos cuerdas.

· Agrupamiento o “Clustering”, que nos permite saber que series de tiempo en una base de datos son similares entre sí de acuerdo con un patrón de medida. Si pensamos a las series de tiempo como cuerdas rígidas, esta funcionalidad simplemente es en establecer cuales características de sus formas las hacen similares para agruparlas por ellas.

· Clasificación, que funciona cuando tenemos ya parámetros de agrupamiento y debemos decidir si una serie pertenece o no a ellos. Si tenemos una nueva cuerda, podemos obtener sus características de forma, a partir de ellas las podemos poner en un grupo u otro.

· Predictibilidad, poder entender como formar el siguiente o los siguientes puntos en las series de tiempo. Es un poco difícil explicarlo como una propiedad de una cuerda, más no es difícil si ponemos un poco de imaginación en ello. Supongamos que tenemos una cuerda muy grande con diferentes valles, espirales o movimientos dentro de ella. Una de las propiedades de las series de tiempo es que podemos elegir dividirlas en grupos de intervalos. Por ejemplo, si la serie de tiempo tiene mediciones diarias, podemos dividirla en sub cuerdas semanales, mensuales y anuales. Muchos de los patrones de predictibilidad juegan con la creación de estas divisiones y la comparación entre ellas.

· Resumen o “Summarization”, que significa agrupar valores de una medida temporal hacia una más grande ¡Esta es una propiedad sorprendente de transformación de las series de tiempo! La frase “encontrar lo invisible dentro de lo visible” toma sentido con ella. Pensándolo como cuerdas, lo que podemos decir es que estas tienen una propiedad tal que podemos tomar segmentos de ellas, hacer una transformación de agregación y mantener las propiedades de forma globales de su geometría. Realmente una propiedad única.

· Detección de anomalías, que significa detectar aquellos puntos o conjuntos de puntos que escapan a la tendencia de medición dentro de la serie. Geométricamente las podemos identificar cómo picos pronunciados o formas que destruyen la derivabilidad de la serie.

Conclusiones bestiales

Cada una de estas actividades contiene algoritmos y construcciones matemáticas que son resueltas dependiendo de la serie de tiempo especifica. Debido a la maravillosa herramienta que son las funciones métricas, es casi un proceso artesanal de su uso. Esto podría ser la respuesta por la cual los productos de “forecasting” no son tan utilizados. Pongamos a consideración que tan bueno sería trabajar en series de tiempo. Por un lado, muchos de los problemas de mayor interés económico están ahí. Por otro lado es difícil explicar el proceso artesanal que las partes interesadas –“stakeholders”-. Aún con todo esto, la decisión parece ser simple, el minado de series de tiempo es y será uno de los temas más atractivos.

REFERENCIAS

[1] Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.

[2] Wikipedia contributors. (2019, October 18). GSP algorithm. In Wikipedia, The Free Encyclopedia. Retrieved 05:55, June 7, 2020, from https://en.wikipedia.org/w/index.php?title=GSP_algorithm&oldid=921834872

[3] Wikipedia contributors. (2020, April 5). Needleman–Wunsch algorithm. In Wikipedia, The Free Encyclopedia. Retrieved 06:31, June 7, 2020, from https://en.wikipedia.org/w/index.php?title=Needleman%E2%80%93Wunsch_algorithm&oldid=949224068

[3] Ralanamahatana, C. A., Lin, J., Gunopulos, D., Keogh, E., Vlachos, M., & Das, G. (2005). Mining time series data. In Data mining and knowledge discovery handbook (pp. 1069–1103). Springer, Boston, MA.

Human Networks

Dreamed by Science, Realized by Data and Wondered by technology

Ekaropolus Van Gor

Written by

A physicist that learned the hard way about business technology, wonders about complexity of the mathematical abstraction of urban processes and loves honey.

Human Networks

Hadox Human Networks delivers publications in science, data and technology to make you proud of your knowledge, and to to make you think the unthinkable.

Ekaropolus Van Gor

Written by

A physicist that learned the hard way about business technology, wonders about complexity of the mathematical abstraction of urban processes and loves honey.

Human Networks

Hadox Human Networks delivers publications in science, data and technology to make you proud of your knowledge, and to to make you think the unthinkable.

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store