Segunda semana de avances en Code for Spain

Code for Spain
4 min readApr 22, 2016

--

Tras la primera semana de bienvenida, en esta hemos estado avanzando en los primeros datasets, poniéndonos de acuerdo en los formatos y también hablando con más personas involucradas en el mundo de los datos abiertos.

Acordando formatos y convenciones

  • Los datasets deben tener por cada tipo de dato, o un solo archivo por toda España o uno por cada comunidad. No es correcto que esté Canarias por un lado y el resto de España por otro #23
  • Hemos definido que las fechas estilo 2015T4 se guarden en dos campos distintos: año (2015) y trimestre (4) #24
  • Los JSON serán un array plano de objetos. Los datos no estarán anidados por comunidades ni años #24
  • Todos los datasets que contengan datos de municipios, provincias o comunidades deberán incluir el correspondiente código INE; para así poder cruzar datasets sin depender de que los nombres coincidan. Por tanto, a la hora de validar la fuente del dataset debemos comprobar que todos tengan un código INE asociado #22
  • Relacionado con el anterior, Iñigo Flores ha creado un dataset de las organizaciones administrativas con sus códigos INE. Falta que otras personas lo validemos.
  • El fichero datapackage.json de cada repositorio puede incluir información sobre los diversos tipos de datos que contenga. Iñigo Flores lo ha probado con un repo de Code for Spain y funciona bien #2. Por cierto, existe un servicio de la OKF para crear o editar este tipo de archivos.
  • Tenemos todavía dudas sobre cómo guardar ficheros grandes como los GeoJson. Hemos probado Git Large File Storage pero ya nos hemos quedado sin espacio. Más adelante decidiremos dónde los alojamos #21

Todos estos aprendizajes los hemos añadido en la página del wiki sobre la estructura del repositorio.

Avance de los primeros datasets

Vamos a intentar dejar finalizados 5 datasets y así servirán de ejemplo para el resto. Podéis entrar a ayudar en los repos.

Conociendo LibreBORME

Estuvimos hablando con Pablo Castellano acerca de su proyecto LibreBORME. Ha hecho un trabajo enorme haciendo una base de datos de empresas y administradores a partir de los datos que facilita el BORME, y se ha ido encontrando con varios problemas:

  • El BORME tiene 3 secciones, pero la sección 1, que es la importante, solo está en PDF. Ha tenido que hacer muchas iteraciones para reconocer bien las empresas y personas que aparecen. Y aún así, no es 100% fiable porque al no tener los DNIs no pueden diferenciar personas con el mismo nombre o la misma persona puede aparecer con distintos nombres.
  • Solo hay datos de la sección 1 a partir del 2009, los de antes no están accesibles de forma pública.

Es una pena que el propio Registro Mercantil no ofrezca estos datos de forma abierta. Otra web interesante para ver estos datos es Funes, donde se pueden ver en modo grafo pudiendo explorar por personas o empresas.

Hablando con Civio

También hemos hablado con David Cabo de Civio esta semana. Estuvimos hablando sobre su experiencia con los datos abiertos y la falta de ellos en muchas temáticas. Ellos tienen muchos problemas porque los temas que tratan son sensibles para los políticos y aunque la ley diga que se deben liberar los datos, pocas veces lo hacen o tardan años.

David se unió a Code for Spain desde el principio y nos ayudará en el poco tiempo que tiene. Nos recomienda tener objetivos a corto plazo y tener clara la misión para que todos estemos motivados.

Empezando a hablar con organismos públicos

Ayer hablamos con el primero de los responsables de datos abiertos de organismos públicos. Fue muy interesante la charla porque nos permitió conocer cuál ha sido la evolución de los datos abiertos.

La reflexión más interesante fue que actualmente tenemos un problema de la pescadilla que se muerde la cola. Los desarrolladores y empresas usamos poco los datos públicos porque no hay o están en formatos pobres, pero como los organismos públicos no han visto que los datos ya abiertos hayan causado impacto, no tienen motivación para seguir dedicando recursos. Y los departamentos de datos abiertos se quedan en medio del fuego cruzado.

Se necesitan ejemplos con un gran impacto para dar munición a los responsables de datos abiertos de los organismos públicos. Desde Code for Spain deberíamos ayudar porque redundará en el beneficio de todos.

Otra reflexión muy interesante es que el mayor beneficiario de los datos abiertos es el propio organismo público porque les ayuda a estructurar mejor sus excels, carpetas compartidas o bases de datos. Pasan de tener ficheros sueltos con poca fiabilidad a bases de datos donde todos los funcionarios pueden acceder.

Esta próxima semana se presenta interesante, vamos a intentar hablar con los responsables de datos abiertos de Castilla y León, Euskadi, Lorca, Madrid, Málaga y Navarra. Si perteneces a otro gobierno regional o municipal y quieres que hablemos para ver cómo te podemos ayudar, escríbenos.

433 personas ya nos seguís en Twitter y 56 estamos en el grupo de Slack.

--

--

Code for Spain

Una iniciativa para mejorar nuestras ciudades y comunidades aprovechando el open data y el potencial de la tecnología. Os invitamos a todos a participar.