API Series de Tiempo: ¿cómo se usa y hacia dónde va?

A casi 2 años del lanzamiento de la API de Series de Tiempo de la República Argentina, revisamos las métricas para ver de dónde vienen las consultas, qué tipo de usuarios hay, abrimos algunos indicadores de seguimiento y te contamos qué sigue en la hoja de ruta.

Agustín Benassi
Datos Argentina

--

En 2017 nos habíamos planteado desarrollar una base centralizada de indicadores de actualización cronológica de la Administración Pública Nacional. Después de comenzar el trabajo en marzo de 2017:

La API de Series de Tiempo nos demostró que se puede mejorar la experiencia del uso de datos públicos desarrollando canales de consumo específicamente diseñados para determinados casos de uso (en este caso: de quienes usan indicadores numéricos que evolucionan en el tiempo). Aprendimos cómo diseñar e implementar un servicio de datos abiertos en gobierno, de forma que sea escalable y administrable por varios equipos de datos diferentes a la vez.

Creemos que esta experiencia debe ser sólo la primera de una línea de trabajo que desarrolle otras APIs basadas en diferentes casos de uso, y su ecosistema de herramientas conexas (como componentes front-end). Algunos de estos pueden ser:

  • API de datos de panel. Entendiendo estos como los que tienen variables numéricas, una dimensión temporal, y una o varias dimensiones no temporales (categorías, unidades territoriales, etc) ¿Qué hacen estos usuarios con esos datos? ¿Qué parte de su experiencia de uso se pueden facilitar?
  • APIs de datos referenciales o entidades interoperables. La API Georef fue uno de estos casos, pero los usuarios también cruzan datos por clasificaciones de bienes y servicios, clasificaciones presupuestarias, dependencias u organismos del estado, personas jurídicas, etc.
  • API de registros o de datos tabulares en general. Donde el objetivo es consultar tablas genéricas donde las operaciones suelen requerir consultar determinadas filas / columnas a partir de algunos filtros, o recuperar entidades puntuales por su identificador.

¿Desde dónde se consulta la API?

A partir del análisis de las fuentes de consultas a la API, clasificamos a los usuarios principalmente en 3 tipos:

Usuarios web. Consultan la API desde navegadores web a través de aplicaciones o componentes front-end desarrollados por nosotros, consultas directas desde el navegador o aplicaciones web de terceros.

  • Ocasionales. Navegan sitios web gubernamentales o privados con otros objetivos primarios, y circunstancialmente ven indicadores que provienen de la API.
  • Recurrentes. Consultan frecuentemente tableros de control o seguimiento de indicadores.

Analistas. Consultan la API directamente desde planillas de cálculo o desde rutinas programadas por ellos mismos, para su propio consumo. En general son usuarios de Google Spreadsheet, Libre Office, Excel o programan en Python, R y Matlab.

Desarrolladores. Desarrollan aplicaciones para el consumo de terceros (no consumen por sí mismos) y lo hacen principalmente en Python, Node.js, Nim o utilizan Power BI (Microsoft).

El 60% de las consultas proviene de navegadores web. Una tercera parte de ellas viene del Portal de Datos Económicos de Hacienda, otra de componentes desarrollados por el equipo de Datos Argentina (Explorador y Componentes web de Series de Tiempo) y la tercera parte de consultas directas o aplicaciones de terceros.

Un cuarto de las consultas vienen de usuarios de Google Spreadsheet. Estos también vienen (estrictamente) de navegadores web, pero son usuarios de planillas de cálculo.

En el casi 15% restante tenemos una variedad de orígenes, mayormente de usuarios que programan en Python o en otro de los lenguajes mencionados. También se incluyen aquí usuarios de productos de Microsoft como Power BI o Excel, y una proporción de consultas cuyo origen es desconocido.

¿Qué datos consultan?

La mayoría de los usuarios que utilizan la API consultan series financieras. A la fecha, este tipo de público representa el segmento de usuarios más importante. Mientras que las series del Instituto Nacional de Estadística y Censos (INDEC) reciben el 60% de las consultas, es destacable que el 97% de los usuarios únicos consultó por lo menos 1 serie del Banco Central de la República Argentina (BCRA) en los últimos 3 meses. Esta proporción cae inmediatamente a 29% cuando se considera a los usuarios que consultaron al menos 1 serie de INDEC, en el mismo período.

Es por esto que recientemente trabajamos para incluir 1500 series nuevas del BCRA (casi 1000 de actualización diaria y alrededor de 500 de actualización mensual), apuntando al segmento de usuarios que demandan consumir este tipo de información a través de un web service. La nueva modalidad extrae los datos directamente del sitio web del BCRA, reduciendo la demora de actualización a 1 día.

Mientras que deben hacerse esfuerzos para alcanzar otros segmentos de consumidores de datos (ampliando la variedad temática de la oferta de la API, realizando acciones de capacitación, etc), es importante mejorar la oferta y la experiencia del segmento de público que hoy encuentra mayor valor en el servicio.

Datos en argentina.gob.ar

Como parte del ecosistema de herramientas que facilitan el uso de la API, desarrollamos componentes de poncho para series de tiempo que facilitan el desarrollo web integrado al servicio.

Algunos organismos comenzaron gradualmente a integrar sus indicadores en páginas web de argentina.gob.ar, como es el caso de Seguridad y Defensa, usando los componentes.

Indicadores de seguimiento abiertos

Al igual que hicimos con la API Georef, desde el mes pasado están disponibles en el Portal Nacional de Datos Abiertos algunos indicadores de seguimiento como la cantidad de consultas realizadas por dispositivos móviles o de escritorio, y la cantidad de usuarios únicos que tiene el servicio cada día.

https://datos.gob.ar/series/api/series/?ids=apis_series_001,apis_series_002,apis_series_003

Además, nos parece que otros integrantes de la comunidad de datos abiertos pueden descubrir cosas interesantes sobre cómo y cuándo se consultan indicadores en Argentina, así que también abrimos un recorte de la base original de analytics con las consultas hechas.

¿Cómo sigue la hoja de ruta?

A medida que surgen nuevos casos de uso y tipos de usuarios, se forma un agenda de evolución natural de las funcionalidades de la API que hoy contiene tareas para:

  • Incorporar nuevos formatos (XLSX, XML).
  • Incorporar nuevas estructuras de respuesta (formato de panel en respuestas tabulares, para facilitar la integración con aplicaciones de BI).
  • Agregar nuevas transformaciones (suma acumulada anual).
  • Agregar nuevos filtros y criterios de búsqueda (fechas de actualización, cobertura temporal de la serie)
  • Implementar consultas de paquetes de series agregadas (solicitar todas las series de una distribución)
  • Implementar parámetro que permita llenar los puntos sin datos de una serie
  • Implementar nuevas frecuencias (semanal, horaria)
  • Mejorar la administración de la aplicación
  • Generar indicadores y reportes de uso a los publicadores
  • Permitir la suscripción a actualizaciones de series
  • Permitir la suscripción a novedades

Además, los componentes web deberían continuar su desarrollo a medida de las necesidades de los organismos que publiquen indicadores en sus páginas de argentina.gob.ar.

Si querés saber más sobre la hoja de ruta de la API de Series de Tiempo podés ver el backlog de desarrollo en Github o podés aportar una idea, corregir un bug o sugerir una funcionalidad cargando un issue.

El futuro de los datos abiertos como servicio

El comienzo de esta nota sugiere una línea de trabajo futura en base a la positiva experiencia del proyecto Series de Tiempo: el desarrollo de servicios de datos basados en segmentos de casos de uso.

El patrón de diseño general de todos estos sería:

  • Investigar y definir un nuevo caso de uso. Al comienzo de la nota se sugieren algunos.
  • Publicar los archivos originales en forma estandarizada. Definir una especificación según la cual los publicadores originales de datos deban generar datos y metadatos, para el caso de uso identificado.
  • Compilar los datos en una base única. Explotar esta especificación para desarrollar un sistema que compile en una única base, ese tipo de datos.
  • Desarrollar una API sobre la base. Desarrollar un servicio web que permita consultar los datos según las necesidades y operaciones usuales que los consumidores realizan sobre ese tipo de datos.
  • Desarrollar componentes web sobre la API. Diseñar la experiencia digital de consumo de esos datos en argentina.gob.ar y desarrollar los componentes que faciliten el desarrollo de páginas web que quieran mostrar ese tipo de datos.

Moverse hacia adelante en la cadena de valor de la producción y consumo de datos, más orientada a la demanda, requiere esfuerzos técnicos, tecnológicos, de diseño y normativos diferentes de lo que suele ser la apertura de datos tradicional. Sin embargo, esta primer experiencia en Argentina sugiere que este es uno de los caminos a seguir.

Anexo: Métricas de 90 días de las fuentes primarias de la API

Fuentes primarias de series de tiempo ordenadas de mayor a menor por cantidad de consultas en el período de 90 días anterior al 5 de noviembre de 2019.

  • series: cantidad de series de la fuente primaria publicadas en la base
  • usuarios: IPs únicos que en el período realizaron consultas a series de esa fuente
  • usuarios_porcentaje: proporción de los IPs únicos que consultaron la API en el período que consultó series de esa fuente.

¿Usás APIs de datos de la Administración Pública Nacional? Nos encantaría que nos cuentes por Twitter o por mail para qué y de qué manera las usás, y qué otros servicios de datos te gustaría encontrar dentro del Estado.

Si te sirvió este post, hacé clic en el ❤ acá abajo, así más personas se suman a #DatosArgentina.

--

--

Agustín Benassi
Datos Argentina

Economista, programador y activista de la apertura de datos. Director de Datos Públicos en la Secretaría de Modernización de la Nación Argentina.