Discretizando coordenadas de puntos con calles y esquinas

En análisis espacial, trabajar con coordenadas de puntos nos presenta siempre con un problema. ¿Cómo les damos un sentido para convertir un sin fin de datos en una interpretación inteligente de los mismos? El problema con los puntos es que son unidades de análisis continuas en dos variables latitud y longitud. Por eso muchas veces agregamos esos puntos para darles una interpretación. Este trabajo se basa en el trabajo de Antonio Vazquez Brust, donde analiza diferencias en las concentraciones de generación y atracción de viajes en los taxis de Buenos Aires.

Supongan que hablamos de viajes en taxi y tenemos una coordenada para cada origen de un viaje y para cada destino. Responder a preguntas sencillas como ¿Qué zona genera la mayor cantidad de viajes o qué zona atrae la mayor cantidad de viajes?

Puntos de origen y destino de viajes en Taxi en CABA. Con esta información no podemos entender cabalmente qué sucede.
Union espacial o spatial join nos permite unir datos en función de su ubicación relativa en el espacio

La respuesta depende en gran medida depende de a qué llamemos “zona”, es decir, cuál es nuestra unidad espacial de análisis. Podemos preguntar qué barrio es el que genera/atraer más viajes. O podríamos dividir el área de la CABA en una grilla arbitraria con celdas de 500 x 500 m. O podríamos usar radios censales. De esa manera, contamos cantidad de puntos dentro de cada polígono y esto nos da una idea de cuántos viajes se generaron/atrajeron en cada barrio/zona.

El problema con esta forma de darle un sentido a nuestros datos es que dichas unidades espaciales son demasiado arbitrarias. Es decir, si bien toda construcción de conocimiento humano parte de alguna abstracción y arbitrariedad, las unidades espaciales como grillas o áreas administrativas no son geografías propiamente dichas que guarden alguna relación con el proceso que queremos analizar. Los radios censales son unidades administrativas para recolección de datos, no tenemos ninguna garantía de que guarden alguna relación con la dinámica del transporte en taxi. La elección de la unidad espacial es importante ya que da lugar a lo que se denomina el Problema de la Unidad Espacial Modificable (PUEM). La forma en que agregamos nuestros datos puede impactar significativamente en nuestros análisis.

PUEM y su impacto en el análisis de los datos

Existe otra técnica de análisis espacial que nos permite darle sentido a los datos puntuales que se denomina Referenciamiento Lineal o LRS (Linear Referencing System). Es especialmente útil en análisis de datos de transporte porque se transporta bienes o personas a lo largo de una red, de un punto A al punto B por una vía que une ambos. Por lo tanto, al tener coordenadas de los puntos de origen, destino y viaje, siempre podemos referenciarlo a esa vía. Podemos decir que está al comienzo (origen), al final (destino) o que esta cerca del comienzo (a 20 metros del origen o que recorrió el 30% del recorrido total). De este modo, puntos que estén muy cerca pueden ser de la misma “zona” de acuerdo a un criterio de agregación: por ejemplo, entre 10 y 20% del recorrido consideramos la misma zona, entre 30 y 40% y así. Esto nos permite agregar y contar elementos dentro de zonas en baso a una geografía directamente vinculada con el proceso que se analiza.

LRS

Pero los viajes en una ciudad no siguen una única linea, sino que la red de transporte es muy compleja. Las ciudades son una intrincada red de calles, esquinas y veredas. ¿Cómo resumir esto en tramos de líneas? Afortunadamente existe un estándar llamado SharedStreets que pretende justamente esto: descomponer todas las ciudades en una red de esquinas unidas por segmentos (calles o veredas). En el ejemplo, el segmento SSR210…2 une los nodos LR1 (esquina ABC) y LR2 (esquina JKL), y tiene 850m de largo.

Todo viaje podría ser nomenclado utilizando este estándar. Fue del nodo ABC al nodo JKL, pasando esta serie de nodos y/o segmentos. Utilizamos este estándar para agregar la información de los taxis de Buenos Aires. Primero, obtuvimos para cada coordenada de origen o destino, un punto en SharedStreets. Cada punto nos devuelve el segmento de calle que le corresponde y la referencia linear en metros dentro de ese segmento.

Luego dividimos cada frente de manzana en 3 puntos (“esquina tal”, “mitad de cuadra” y “esquina tal otra”) y para cada punto determinábamos si su referencia linear coincidía con la mitad de cuadra o alguna de sus esquinas.

Segmentos de cada frente
Largo del frente de manzana = 100m
Cantidad de segmentos = 3
====|====|====|
0 1 2 = ubicación del segmento (100m / 3)
4 8 0 = Valor para el segmento (cantidad de puntos )
Orígenes y destinos agregados

Si uno quisiese los puntos con más origen y destinos (agrupando por quiebres naturales de Jenks) vería que Aeroparque se lleva la mayoría de los destinos mientras que los orígenes se distribuyen entre Teodoro García y Amenabar (Colegiales), Jean Jaures entre Córdoba y San Luis (Abasto), Catamarca y Alsina (Once), San José y Carlos Calvo (Montserrat).

La mirada en conjunto permite ver lo que Antonio notó: una desproporción entre orígenes y destinos (en detrimento de los origenes) en las zonas de Aeroparque y de las villas del sur de la Ciudad.

Al analizar las coordenadas de ascensos y descensos de este modo, podemos ver que la mayoría de las transacciones de taxi son en mitad de cuadra que en esquinas. Sin embargo, al bajarse del taxi es mas frecuente bajarse en una esquina (65%) que en mitad de cuadra, mientras que para subirse se acerca más a la mitad y mitad (55% en esquinas).

Por ultimo decidimos agregar al nivel de frente de manzana (sin importarnos esquina o mitad de cuadra) y ver cuáles son los viajes más frecuentes. Era necesario agregar aún más dado que dos viajes entre, por ejemplo, Perón al 3500 y Callao al 800 no iban a ser agrupados conjuntamente si uno se bajo en la esquina y otro en mitad de cuadra.

Mapeamos solo el grupo más frecuente (también utilizando Jenks). Por un lado, dos grupos de viajes parten de Once y se dirigen a Perón entre Reconquista y San Martín (Microcentro) y por otro a Ayacucho entre Viamonte y Tucumán (Barrio Norte). Por otro lado, otro viaje concurrido es entre Colegiales (Teodoro García entre Ciudad de La Paz y Amenabar) y Palermo (Guemes entre Malabia y Scalabrini Ortiz). Por ultimo se registra otro grupo de viajes frecuentes entre Villa Ortuzar (Carbajal entre Tronador y Plaza) y Villa Urquiza (Blanco Encalada entre Bauness y Bucarelli).

Mapa de viajes más frecuentes