4 no tan simples pasos para recolectar los datos de 837 candidatxs

Democracia en Red
Democracia en Red
Published in
3 min readDec 1, 2021

Si estabas buscando cuál fue la metodología para recolectar los datos de las candidaturas que figuran en MeRepresenta.info, llegaste al lugar indicado.

Para el desarrollo de cada una de las secciones de #MeRepresenta seguimos una metodología de trabajo orientada a lograr un resultado súper riguroso pero siempre con el objetivo de que la información se presente de forma sencilla y atractiva.

A la hora de recopilar los datos de las candidaturas nos propusimos un lindo desafío: compilar la información personal del 100% de las candidaturas, o sea de todas las listas de los 24 distritos. Este ambicioso objetivo resultó en la recopilación de los datos de nada más y nada menos que 837 candidatxs. Te dijimos que era un lindo desafío.

Nos aliamos con el Observatorio de Redes y comenzamos la recopilación de información antes de las Primarias Abiertas Simultáneas y Obligatorias (PASO), que finalmente nos tomó dos meses completos.

A continuación te pasamos la receta metodológica que seguimos para concretar la recopilación de los datos en tiempo y forma en 4 no tan simples pasos:

Primero:

En la Cámara Nacional Electoral (CNE) obtuvimos la base de datos con información de todxs los candidatxs que se presentaron en las PASO.

Gracias al “web scraping”, además del nombre de lxs candidatxs recolectamos datos como “alianza partidaria”, “distrito”, “categoría”, “subcategoría”, “posición,” “DNI”, “género” y “fecha de nacimiento”.

Segundo:

Cruzamos los DNI de lxs candidatxs con el Portal de Datos del Ministerio de Justicia y Derechos Humanos para conocer las “entidades constituídas” que se muestran en la plataforma en el apartado de “vida empresarial”.

Tercero:

Trabajando con R Studio extrajimos datos de la actividad en Twitter de todxs los candidatxs, como descripción (bio), cantidad de seguidores (followers_count), cantidad de tweets emitidos (statuses_count), fecha de creación de la cuenta (account_created_at), y sus tweets con más RT.

Cuarto:

Realizamos la carga manual de más datos basados en fuentes confiables, como “profesión”, “hijxs”, “si tuvo o no cargos políticos anteriormente” y “si estuvo en otros partidos o no”.

La información que no pertenecía a una fuente confiable o que simplemente no se encontró, figura con el rótulo “no hay datos”

Hasta ahí el trabajo hasta las PASO, pero una vez definidos los resultados de las Elecciones Primarias comenzamos a trabajar sobre las listas definitivas con la información de la aplicación Elecciones Legislativas del Ministerio del Interior Argentina. Cuando la Justicia Nacional Electoral confirmó las candidaturas terminamos de configurar la matriz de los 837 candidatxs que se presentaron a las Elecciones Generales del pasado 14 de noviembre.

Con las listas finales en mano, eliminamos aquellas que quedaron fuera en las Primarias y auditamos la carga previa distrito por distrito, provincia por provincia, completando las listas hasta alcanzar el 100% de las candidaturas titulares en todo el territorio nacional.

Para terminar esta fase volcamos los datos recolectados en MeRepresenta.info de forma pública para que cualquiera los pueda ver, usar o auditar. Además, la plataforma es de código abierto para que también cualquiera la pueda replicar, modificar y mejorar (y ojalá así lo hagan).

Si todavía no lo hiciste, podés entrar a MeRepresenta.info y conocer la información de lxs legisladorxs electxs en las pasadas Elecciones Generales del noviembre 2021. Porque, te guste o no, est​x​s candidat​xs nos van a representar ​durante los próximos 4 años.

--

--

Democracia en Red
Democracia en Red

Creamos soluciones de #Participación #Ciudadana con #Gobiernos y #Activistas para fortalecer la #democracia 🌎👩🏽‍💻👨🏼‍💻💡