Comprensión y Preparación de Datos sobre Accidentes de Tránsito

Recolección, descripción y limpieza de datos abiertos sobre accidentalidad vial en Barranquilla, Colombia

Daniel Martinez Bielostotzky
Ciencia y Datos
2 min readJul 23, 2019

--

Foto de Clint Adair en Unsplash

Hace casi 6 meses escribí un artículo sobre ingeniería de requerimientos aplicado al proyecto de pregrado “Análisis y predicción de accidentes de tránsito en Barranquilla mediante técnicas de minería de datos”. En dicho artículo presento la fase de comprensión del negocio (de la metodología CRISP-DM) y en este continúo con la serie de artículos sobre el proyecto tratando la comprensión y preparación de los datos públicos utilizados.

Recolección de los datos

Durante el desarrollo del proyecto se utilizaron 3 fuentes provenientes de la página de datos abiertos de Colombia. Los datos obtenidos tienen información de la accidentalidad general de la ciudad, detalle de vehículos y víctimas a partir de 2016 y hasta el 2018. Para la extracción, el módulo de peticiones web de Python permitió interactuar con el API REST de la página que aloja los datos. Así, estos fueron guardados en formato CSV en una dirección estática dentro de la estructura de carpetas del proyecto.

Estructura de carpetas del proyecto. Inspirada en la estructura de Edward Ma propuesta en Medium.

El script para la interacción con el API tiene una estructura común para cada conjunto de datos, la única variación es en el link y nombre del archivo final.

Script para extracción de datos

Una vez se tienen los archivos en bruto extraídos los datos son procesados y limpiados utilizando Python. Dentro de los métodos de limpieza fue necesario tratar registros nulos, eliminar columnas repetidas, convertir de dirección a coordenadas y aplicar ingeniería de características en varias columnas de los dataset.

Preparación de los datos

Preparación de datos (detalle de vehículos)

Preparación de datos (detalle de vícitimas)

Preparación de datos (detalle de accidentes)

  1. Registros nulos

2. Direcciones a coordenadas

3. Hora a momento del día

4. Clustering (ingeniería de caracteristicas)

Se aplica k-means para encontrar las principales zonas de la ciudad en materia de accidentes.

5. Día de la semana vs fin de semana (ingeniería de características)

Conclusiones

Con el proceso de recolección, limpieza e ingeniería de características se logró la construcción de unas fuentes de datos limpias para exploración. Las fuentes de datos procesadas dan pie a la búsqueda de patrones y comportamientos comunes que permitirán caracterizar los accidentes y comprender el fenómenos de la accidentalidad vial en la ciudad de Barranquilla.

--

--

Daniel Martinez Bielostotzky
Ciencia y Datos

Certified Tableau Desktop Specialist, lead Tableau consultant at Bera Group SAS (Bogota, Colombia) in love with data science, machine learning and Python