Open Data Colombia — Dumping 5 Gigas de Contratos estatales

David Przybilla
Medium Colombia

--

Dumping 5 Gigas de Contratos estatales

Para los que han leído mis posts anteriores tendrán claro que me siento bastante defraudado con la propuesta de Open Data del gobierno Colombiano. Así mismo con el hecho que la mayoría de hackatones se centren en crear “valor” construyendo apps con los datos abiertos que el gobierno ha publicado en su web oficial.

Seamos honestos, el 90% del tiempo que hacemos Data Science lo gastamos haciendo: Extracción, Transformación y Limpieza de datasets.
A cuantas Hackathones no hemos ido en la cual la conclusion ha sido:

“… Se podría hacer mas, pero hay que limpiar los datos X …”

A pesar de ello la mayoría de eventos relacionados con open data se centran mayoritariamente en posibles aplicaciones de los datos.
Si es cool, pero al final del día sería util tener Hackatones que nos permitan desarrollar/limpiar/relacionar datasets para poder construir ideas sobre ellos.

En Colombia existen tantos problemas Sociales/Politicos/Estatales en los cuales el open data cobra relevancia, sin embargo muchos desarrolladores prefieren hacer un “Instagram para perros” en Hackathones.

En ese animo de empezar a trabajar sobre Contra (Si como el juego de NES), una herramienta para dumpear los datos de `https://www.contratos.gov.co`.

https://www.contratos.gov.co contiene a la fecha aproximadamente 1 millón de entradas sobre contratos otorgados por el gobierno.
Cada entrada contiene algunos datos básicos como:

  • La entidad contratada, Entidad contratante
  • El monto de dinero
  • Documentos que dan seguimiento y soporte al proceso de contratación -
  • Lista de documentos que permiten dar seguimiento al proceso de contratación.

El gobierno no comparte esa base de datos via dump o via API, prefiriendo compartir datasets (ver datos.gov.co) sobre contrataciones que resultan inútiles por su superficialidad pero también por la cantidad tan reducida de datos.

Contra descarga los datos de contratos, los limpia y organiza en un dataset en formato json que puede ser usado para : data science,apps …etc ..etc

¿Por qué es importante tener datos sobre contratación?

Por “Accountability”, si tener estos datos permite a ciudadanos establecer posibles incongruencias en los procesos.

En lo mas simple este dataset permitirá encontrar procesos de contratación extraños:

  • Procesos que tomaron menos tiempo de lo usual.
  • Procesos por los cuales se pago cantidades más elevadas de dinero en comparación con otros procesos similares.
  • Relaciones entre entidades y compañías. ¿Será que algunas entidades tienen ciertas preferencias?.

Sin embargo, el verdadero poder del open data consiste en cruzar datasets. Algunos ejemplos:

  • Si tuviéramos un dataset que relacionara personas con compañías. Podríamos establecer si una entidad ha estado haciendo negocios reiterativamente con una misma persona a través de diferentes compañías fachada.
  • Si tuviéramos un dataset que relacionara parentesco entre personas. Podríamos establecer si los funcionarios de una entidad prefieren hacer negocios con su circulo familiar cercano.

El open data combate la corrupción desde dos extremos:

  1. Exponiendo al público fraudes existentes.
  2. Creando un mecanismo de control los funcionarios públicos pensaran dos veces antes de “hacer un torcido” sabiendo que existe otra herramienta para exponerlo.

Espero jugar pronto con los datos y escribir otro post al respecto, pero eso será otro fin de semana ;), si quieres col

--

--

David Przybilla
Medium Colombia

Software Engineer: Backend, Data and Infra 🗼🇯🇵 @dav009