Análisis de Tráfico en el metro de NY (Mi primer proyecto)

Monica Ramirez
5 min readApr 26, 2019

--

There’s an english version of this post here.

Como comenté en un post anterior, estoy haciendo un Bootcamp en Data Science en New York en el que espero certificarme en temas relacionados con Machine Learning e Inteligencia Artificial. (aquí para saber qué es un Bootcamp de Data Science y porqué lo recomiendo)

Solo ha pasado una semana y, como dije, esto es una injección de información asistida. En solo una semana ya debemos entregar nuestro primer proyecto.

El proyecto #1 es en grupos de cuatro personas, (Es el único, los demás seran independientes) y en él debo analizar datos reales del metro de New York (MTA) para obtener puntos estratégicos ara repartir invitaciones a un evento de recaudación de fondos para una organización inventada de Mujeres en Tecnología. La organización era de mentiras para este proyecto, peor los datos eran reales. Fue muy interesante limpiar y analizar, no solo información real de una empresa como el MTA, sino jugar y analizar los demográficos de las personas (Mujeres, trabajando en tecnología, con ingresos y disposición para contribuir, …) y las ubicaciones (Cerca a estaciones MTA, cerca a hubs de tecnología, universidades, …), y todo lo que uno pueda imaginarse con los tema ue aprendíamos en las mañanas.

En solo una semana aprendimos:

  • Git:
    Es un repositorio para desarrolladores. Yo ya había trabajado con él durante mi trabajo en Colombia, así que tenía los conceptos básicos. En el bootcamp recomendaban utilizar una herramienta GUI para desarrollar, como Atom pero, personamente, me gusta más trabajar por línea de comandos. (Aquí pueden encotrar un “cheatsheet” útil e interactivo para Git). Mientrastanto, stos son los comandos básicos y que más se van a utilizar:
git status  # Permite ver que archivos has modificado en comparación a tu rama maestra
git add <filename> # O git add . agregará TODOS los archivos marcados en rojo
git commit -m ‘Un comentario para este commit’
git push my_branch master # O git push si has configurado los valores por defecto
  • Python/Pandas:
    También había trabajado antes con Python, así que ya conocía la sintaxis de código y algoritmos. Para mí lo nuvo fue trabajar con Pandas. Encontré estas dos páginas muy útiles como punto de partida:

Things in Pandas I Wish I’d Known Earlier

10 Minutes to Pandas

En pocas palabras, es una librería para leer archivo y tratarlos como “tablas” (llamadas “DataFrames”) de una manera muy fácil. Si conoces el lenguaje SQL, te vas a familiarizar muy fácil con Pandas.

  • Matplotlib/Seaborn:
    Son dos librerías de Python para generar gráficas, son básicas pero muy útiles. Puedes crear diagramas de distribución, histogramas, mapas de calor, diagramas de dispersión (scatterplots), etc. Aquí descubrí que me encantan los mapas de calor! También descubrí tips interesantes como la función cut, en Python, para dividir los datos en rangos o casillas (En mi caso por horas del día); o a jugar con diferentes paletas de colores bonitos de seaborn
86th Street Station
  • Folium:
    Cuando obtuvimos del análisis lo que necesitábamos: Qué estaciones, en qué horarios, etc. Graficamos todo en un mapa de New York mostrando: estaciones recomendadas en donde repartir las invitaciones y volúmen de trafico en ellas, junto con datos de población e ingresos en cada una. Todo esto fue posibe gracias a la libreria Folium. Recomendada!

Dificultades

En el Bootcamp siempre recomendaron trabajar en Linux o MacOS y aunque la mayoría de Data Scientists trabaja en Mac, yo me siento mejor con Linux, Mac no me gusta personalmente (Que vengan los comentarios…) Así que instalé Linux en mi computador, en él hice todo el prework y trabajo previo al bootcamp sin problema… y en el día #1: Algo le pasó al WiFi. No se puede hacer un Bootcamp sin internet! Hacemos investigaciones, busquedas y commits a Git todos los días. Parece que era algo físico con el driver del WiFi así que tuve que conseguir un Mac, muy a mi pesar, en el dia 1.

Esto no quiere decir que no se pueda trabajr en Linux, de hecho, dos personas en el Bootcamp lo usa sin problemas. Una de ellas trató de ayudarme, pero era algo físico con mi computador y no con el sistema operativo

Trabajar este primer proyecto en grupos es difícil, tienes muy poco tiempo (4 días) par conocer y aprender a trabaar con gente que no conoces, de diferentes ámbitos, de pronto diferentes países, y con diferentes ideas, así que se hacen lluvias de ideas y se discute constantemente.

Lecciones Aprendidas

  • Definitivamente me encantan los mapas de calor! Se pueden mostrar muchas cosas con ellos, inclusive graficar mapas geográficos de verdad. Es una muy buena forma de graficar un análisis de 3 variables.
  • Colaboración: Una de las carcterísticas de un Bootcamp es que hay poca gente y poco tiempo, por lo tanto entre todos nos debemos ayudar. Algunas de las funciones e inconveniendtes que encontramos e este proyecto fueron solucionados con la ayuda de otros compañeros y monitores y, de la misma manera, ayudando a los demás con cosas que nosotros sabíamos ahcer aprendimos también un montón. Todos están dispuestos a ayudar!
  • Github: Hemos aprendido toda una cultura de colaboración y código abierto. Trataré de mantener al día mi repositorio y compartir mis noteboos y futuros proyectos. por ahora, este primer proyecto peuden encontrarlo aqui.
  • Escribir este blog! Pensando en seguir colaborando, no solo con mis compañeros sino con todo el mundo, seguiré escribiendo posts constantemente sobre tips de Data Science, librerías interesantes o mi experiencia en el Bootcamp y obvio, mis proyectos. He leído muchísimos blogs en solo esta semana que me han sido muy útiles y estoy muy agradecida con quienes los escriben, que pienso seguir sus pasos.
  • Actualización: Este blog nació durante el Bootcamp como parte de mi página principal de github y estaba escrito en inglés. Para no perder tiempo pensando en el formato, los colores, las imágenes… decidí migrar a Medium. También decidí pasarlo a español pues actualmente hay muy pocos recursos en nuestro idioma, es por eso que los primeros posts tienen versión en inglés y en español. Como debo traducir mis primero posts a español, les pido paciencia si se demoran o si las fechas no concuerdan. Asímismo, me gustaría generar los nuevos posts primero en español, pero también en inglés para llegara más gente y por si a alguien le son útiles. Qué opinan?

--

--