OpenData Colombia — Votaciones Senado
En otros posts ya he discutido mi frustración sobre los datos abiertos disponibles y el fracaso de la propuesta de datos abiertos del gobierno.
Congreso Visible es un gran proyecto que reúne y visualiza datos concernientes a las votaciones en Senado, congreso y cámara de representantes. Lastimosamente los datos pueden ser visualizados pero no consumidos por desarrolladores.
Visualizar estos datos es importante para que la ciudadanía ejerza control sobre lo que ocurre en esas corporaciones. Sin embargo dar la capacidad de consumir estos datos otorga a los ciudadanos la capacidad de asociar datos de diferentes fuentes, entender mejor los fenómenos que ocurren dentro de las corporaciones a través del planteamiento de preguntas, hipótesis y correlaciones.
El fin de semana pasado decidi que ya habia esperado lo suficiente por un API, empece a programar un pequeno scrapper para extraer la información.
Dado que el sitio web de congresovisible estuvo caído durante el fin de semana, tuve que esperar hasta mediados de la siguiente semana para ponerlo en acción. Finalmente logre extraer 40MB de datos sobre votaciones
Dump de datos
El dump de datos esta en formato Json y contiene datos sobre :
1. Votaciones de Senado,Camara y congreso desde el 2007 hasta la fecha.
2. Información detallada sobre el voto de los senadores y el partido politico del cual hacían parte en momento de ejercer un voto
3. Fecha y descripción breve sobre los proyectos que se votan
El Dump esta disponible en github : https://github.com/dav009/congresovisible
“Hello World” — Clustering de Senadores
El verdadero valor de este data dump esta en relacionarlo con otros datasets pero no resisti el querer jugar un poco con el dump ☺, así que empece hacer clustering de senadores.
Tome el periodo 2014 como mi ventana de datos, la corporación fue el Senado. Los senadores fueron agrupados según los votos a proyectos, es decir dos senadores están en el mismo grupo si suficientes votos a proyectos coincidieron. Lo mas natural es que politicos que militan al mismo partido sean agrupados.

Abri mi consola de R, y corri complete-link para hacer clustering jerarquico. En general hay 5 clusters (ver resultado agrupamiento tamaño completo).
El bloque de color verde son muy parecidos y agrupa en general a miembros del partido de la Unidad Nacional y de Centro democrático. Lo cual indicaría que a pesar de las diferencias mediaticas talvez no existan demasiadas diferencias ideológicas al momento de votar proyectos de ley.

El bloque de color rojo agrupa mayoritariamente miembros del partido conservador, imagino que estos se alejan un poco del partido de unidad nacional.
Tambien el bloque de color azul agrupa mayoritariamente a miembros del partido conservador. Lo que al parecer indicaria que este partido esta divido en al menos tres frentes que piensan diferente (? )

El bloque de color aqua agrupa a miembros del Polo, Alianza Verde y Opción ciudadana.
El bloque magenta agrupa al parecer politicos que hacen parte de la Unidad Nacional pero que al momento de votar difieren radicalmente del partido en general.

Pero esto es solo un “Hola Mundo”, para mostrar como podemos usar los datos. Por ello☺disculpen mis interpretaciones políticas las cuales probablemente son erradas.
El verdadero valor esta en relacionar estos datos con otros conjuntos. Por ejemplo relacionar las descripciones de los proyectos con el interes de ciertos senadores, relacionar noticias que ocurrieron previamente a las votaciones etc..