Los datos abiertos y el costo de su beneficio.

6 min readApr 3, 2018

Los datos abiertos que provengan del gobierno son la herramienta más poderosa que tenemos en la sociedad civil para poder tener una participación activa y valiosa que pueda tener un impacto real en el bienestar de todo Costa Rica.

Pero para poder hacer uso de esta herramienta la sociedad civil debe invertir un alto monto en recursos, principalmente monetarios y humanos, pues sin esta inversión la liberación de datos se esfuma como señales de humo que nadie vio.

Imaginen, por ejemplo, si alguien necesita encontrar en qué reunión del comité X de la institución Y se tomó cierta decisión, pero solo sabemos que la decisión fue en el 2016, se nos lleva al menos un par de días descargando y leyendo 50 minutas de 30 páginas cada una. O que un periodista independiente necesita hacer una correlación de datos económicos de los últimos 5 años con fuentes que provienen de 3 o 4 instituciones diferentes. Sería una labor titánica de muchos meses o simplemente imposible.

Es precisamente en esa inversión donde nace un segundo compromiso de los funcionarios públicos para con los datos abiertos y la sociedad, ya no basta con liberarlos sin restricción, también es su deber liberarlos de una manera en que se pueda reducir al máximo la cantidad de tiempo y dinero que deberá invertir el interesado en observar, analizar y fiscalizar estos datos.

Para reducir esta inversión hay varias medidas que se pueden tomar, siendo la principal tener un liderazgo que ordene a todos la manera en que serán liberados los datos. Sin importar lo mal que hagamos la liberación, si todas las instituciones lo hacen de la misma manera el ciudadano solo deberá realizar el trabajo de romper esas barreras una vez, y luego puede repetirlo en todas las demás fuentes de datos que necesite o le interesen, por eso es que estandarizar la liberación de datos de manera obligatoria y exacta para todos es de vital importancia.

Pero nacen entonces las pregunta de ¿todas las instituciones tienen las mismas necesidades y un modelo igual sirve para una como para la siguiente, o dañamos el flujo de datos de alguna al obligarla a hacerlo de la misma manera que los demás?, ¿qué debemos estandarizar?

Lo primero es sí, algunas instituciones pueden sufrir, y es necesario entonces tener un modelo que permita la liberación estandarizada pero que a la vez le dé flexibilidad a los involucrados para que cada uno pueda dar el mejor servicio a nosotros los ciudadanos.

Esto nos lleva a la segunda pregunta, y antes de entrar en detalles técnicos debemos fijarnos los objetivos de esta estandarización:

Que los datos sean fácilmente importados en los sistemas de oficina comúnmente utilizados.
Que los datos sean fácilmente analizados por un simple programa de cómputo sin la necesidad de altas inversiones.
Que en la medida de lo posible se incluyan extractos y sumarios de aquellas publicaciones largas, como minutas o circulares, etc.
Que exista un sistema de notificaciones “push” para que el ciudadano no deba estar siempre al tanto de qué dato nuevo ha sido publicado.

Todos estos objetivos son con la intención superior de facilitar la labor de análisis de periodistas, abogados, economistas, y cualquier otra persona que quiera o necesite observarlos y analizarlos, tomando en cuenta que no todos tienen millones de colones disponibles para invertir o cientos de horas libres que puedan destinar a manejar una inmensa cantidad de datos que pueden salir en avalancha desde la maquinaria gubernamental.

Se pueden lograr de muchísimas maneras, entonces lo que adelante propongo son simplemente algunas soluciones para algunos de los objetivos.

Lo primero que se debe adoptar y obligar es un conjunto muy reducido de formatos de datos permitidos, y evitar a toda costa el uso de otros formatos. Algunos formatos son más costosos de analizar que otros, un ejemplo nefasto de un formato que deberíamos evitar a toda costa, pero que es muy utilizado pero muy costoso de analizar, es el popular PDF, que puede parecer muy bonito para leer una o dos páginas en un mismo archivo, pero se vuelve imposible de analizar por medio de computadora o de leer por seres humanos cuando la cantidad de archivos sube a decenas o cientos y las páginas a leer llegan a varios miles. Otro ejemplo que jamás deberíamos permitir es utilizar imágenes escaneadas para compartir cualquier cantidad de texto, estos impiden la lectura del texto por cualquier sistema de cómputo.

(a partir de aquí se pone todo técnico y aburrido, ¿o no? 😉)

Para remplazar el PDF podemos sugerir el uso de OpenDocument que a pesar de permitir rico formato en estructura, color y tipografía, es mucho más estructurado y fácil de procesar en largas cantidades.

Para otros tipos de datos que no sean minutas, circulares, cartas etc que son candidatos para OpenDocument, debemos utilizar un formato que sea legible por humanos y por computadoras a la vez, y aunque esto pareciera ser imposible, no lo es, utilizando por ejemplo formato JSON acompañado de una estructura definida por los principios de HATEOAS podemos lograr este objetivo, creando un texto que puede ser leído por humanos sin ninguna dificultad, que puede ser absorbido por un sistema de cómputo sin dificultad alguna y que además permite resolver el problema de dar flexibilidad a todas las entidades que liberarán datos para que se adapte a sus necesidades y formas, sin salirse de ninguna manera del estándar.

HATEOAS cumple este objetivo al ser “autodescriptivo”, explicando cada campo y además describe las relaciones que tiene el dato actual con cualesquiera otro dato que pueda ser importante, y de la misma manera estas relaciones pueden ser leídas por computadora y humanos por igual. Entonces al proveer estas dos características cualquier estructura y relación de datos puede ser implementada por la institución en particular, y sin tan siquiera la necesidad de extensos manuales de uso o diccionario de datos que incrementarían la inversión del ciudadano para poder procesarlos.

Podemos ver una linda explicación de HATEOAS y muchos ejemplos claros en esta página. Permite escoger entre muchas diferentes maneras de implementar el esquema, y para no imponer mis preferencias debo dejar a elección de los jerarcas de Ciencia y Tecnología del gobierno decidir cual es la más apta.

Como ejercicio traten de leer el siguiente bloque a ver qué información pueden extraer sin necesidad de ninguna explicación o manual, y más aún, qué información relacionada pueden inferir:

{
    "content": [ {
        "price": 499.00,
        "description": "Apple tablet device",
        "name": "iPad",
        "links": [ {
            "rel": "self",
            "href": "http://localhost:8080/product/1"
        } ],
        "attributes": {
            "connector": "socket"
        }
    }, {
        "price": 49.00,
        "description": "Dock for iPhone/iPad",
        "name": "Dock",
        "links": [ {
            "rel": "self",
            "href": "http://localhost:8080/product/3"
        } ],
        "attributes": {
            "connector": "plug"
        }
    } ],
    "links": [ {
        "rel": "product.search",
        "href": "http://localhost:8080/product/search"
    } ]
}

¿Se dieron cuenta que un humano puede sacar muchísima información rápida y claramente de un formato como este?, pues de la misma manera el formato es el estándar por excelencia para que un sistema de cómputo lo pueda absorber, manipular, relacionar y analizar, tanto así que la mayoría de lenguajes ya tienen librerías hechas y gratuitas para este fin, dependiendo del formato específico que se elija usar.

El poder notificar al usuario interesado en la disponibilidad de nuevos datos puede llevarse a cabo con el viejo y confiable protocolo de RSS, el cual ya le es familiar a miles personas, y puede ser acompañado paralelamente por portales web centralizados que de forma resumida informen rápidamente al usuario de la misma manera en que redes sociales como twitter lo hacen, permitiendo que el usuario pueda elegir qué fuentes de información incluir en su página personalizada, por ejemplo. Este último es una posibilidad que puede ser desarrollada por un esfuerzo ciudadano si antes el gobierno generador de datos implementa RSS y HATEOAS, pues el esfuerzo de crearlo se vería reducido al mínimo y así ahorrar un poco de fondos públicos.

Entonces como hemos visto hay muchas maneras de colaborar para llegar a tener una mejor información y por ende un mejor gobierno, con más eficacia y menos corrupción si entre todos colaboramos, y si el gobierno se pone de acuerdo y logra hacer que todas las fuentes de datos abiertos trabajen de la misma manera el beneficio para el país sería enorme y no solo le reduciría los costos a la ciudadanía, pero también al mismo gobierno, pues si en algún momento surge una nueva fuente de datos, los lineamientos para implementarla ya estarían planteados y no habría campo para la duda, ni gastos en consultorías innecesarias ni mucho menos.

Termino con algunos enlaces que pueden ser de interés para todos los que llegaron hasta este punto, gracias por su tiempo.

Guía sobre qué formatos de datos abiertos son recomendados por la organización “Open Knowledge International”, http://opendatahandbook.org/guide/es/appendices/file-formats/

Y el manual en general, http://opendatahandbook.org/guide/es/

Y la página de la organización, https://okfn.org/

Información general sobre OpenDocument, https://en.wikipedia.org/wiki/OpenDocument

Links sobre HATEOAS:

Bien aplicado GraphQl podría llegar a ser una alternativa a HATEOAS o una combinación de ambas, pero requiere de estricta implementación que se puede prestar a errores o pequeñitas diferencias que traigan abajo el esfuerzo de reducir los costos, https://graphql.org/

Los datos abiertos y el costo de su beneficio.

(a partir de aquí se pone todo técnico y aburrido, ¿o no? 😉)

Written by Federico Figueroa