Confesiones de una Data Scientist en Google Next & Kaggle Days

María Olivia Lihn
Option.blog
Published in
6 min readMay 22, 2019

Todo comenzó con la idea de ir al evento de Google Next, uno de los más importantes en el mundo tecnológico. En Option somos partners de Google, por lo que esta era una oportunidad para estar presente como embajadora. Por otro lado ya estaba aceptada en Kaggle Days (donde estarían los data scientists más brillantes del mundo), lo cual era otra razón más para no perderme esta oportunidad. Sumando que todo ocurría en San Francisco, la oportunidad era única y por eso decidí que no podía dejar de ir.

Primer día en Moscone Center

Al evento de Google Next fueron más de 30 mil personas. Se llevó a cabo en distintos lugares, entre ellos el Moscone Center. Este es un centro gigante, con un gran nivel de organización, donde todo funcionaba perfecto y donde de inmediato te recibían y ayudaban. Además, eran muy conscientes con el medio ambiente. Habían puestos con comida saludable, frutas, cereales, té verde, entre otros. Incluso la caja donde venía el almuerzo estaba hecha de arroz, por lo que podía reciclarse como materia orgánica.

Todos los días en Moscone Center, se instaló una expo gigantesca, donde partners y Google mismo presentaba sus productos, soluciones y recomendaciones para otras empresas. Una charla que me pareció interesante fue la presentación de TensorFlow 2.0, una librería de Machine Learning y redes neuronales, disponible de manera abierta (open-source) por Google. El lanzamiento de su versión 2.0 fue presentado como la gran revolución de esta solución, ya que no sólo puede ser utilizada para los modelos predictivos propiamente tal, sino también como parte íntegra de todo el proceso de machine learning, incluyendo procesos de transformación de datos y pipelines de predicción.

Con el equipo de Quantiphi en la Expo

El segundo día en Google Next lanzaron AutoML, una herramienta para democratizar el machine learning y acercar esta nueva ola de innovación a más personas. El gran twist del lanzamiento fue la posibilidad de cargar tablas de data “cruda” y dejar que AutoML genere un modelo de forma automática. Varios de los asistentes lo encontraron genial y muchos afirmaron que reemplazaría a sus data scientists. Pero yo tengo otra visión: creo que la herramienta es muy útil para la generación de POCs (proof of concepts), con el fin de evaluar si la data sirve para armar un modelo y si el caso de negocio puede ser resuelto con esta. Pero a pesar de esta gran funcionalidad, considero que siempre se va a requerir del insight humano para lograr los mejores resultados. Los algoritmos de por si no tienen conocimiento experto de dominio o de las particularidades del problema, los cuales son provistos por un buen Data Scientist para generar predicciones precisas.

El modelo en si no es lo más importante dentro del proceso del trabajo con datos y predicciones. Lo más importante es el tratamiento que se le da a los datos. Y para esto se necesita del insight humano y del conocimiento experto del dominio. El modelo requiere alimentarse de todas partes, se deben crear variables que tengan sentido y que puedan explicar el comportamiento humano. Si se quiere modelar comportamiento humano, somos precisamente nosotros quienes sabemos las motivaciones puede tener una persona, los contextos que influyen en las decisiones y por lo mismo, somos capaces de construir variables que estén relacionadas con este comportamiento.

Por estas razones no considero que AutoML sea una solución definitiva. Si bien creo que es impresionante y de gran valor lo que en Google han logrado con esta herramienta, también creo que si solo se utiliza AutoML, en más de alguna ocasión se van a pasar por alto variables o insights críticos que alterarán radicalmente la calidad de la precisión.

En Kaggle Days nos invitaron a participar de una interesante competencia. Esta se realizó en modo offline y solo para los asistentes (clásicamente son competencias online abiertas). Nos plantearon un problema de predicción, donde el objetivo era generar en 8 horas un modelo con el mayor área bajo la curva ROC, en grupos de a tres. En mi caso, armé un grupo con un chico inglés y un chico indio que vive en Estados Unidos. Una de las cosas que más me impactó, fue que durante la competencia se comentaban los errores y aciertos de cada uno. Se daba la oportunidad de conversar con otros competidores o con “maestros” (expertos), lo que permitía recibir consejos para mejorar los modelos y conseguir mejores resultados. Con mi equipo salimos 20 de 80 lo que, considerando que ninguno de los tres había participado en una competencia de Kaggle anteriormente, fue una grata sorpresa. La instancia permitía compartir y colaborar con personas que normalmente uno no conocería, y pude notar que las personas que trabajan en grandes empresas como Google, Facebook y Uber por ejemplo, no son tan distintas a mi.

Mi equipo para Kaggle: Jake, Antiksh y yo

Si bien vi a pocas mujeres, las que conocí me llamaron mucho la atención. Eran mujeres muy tech, fuertes, flexibles en su liderazgo, de grandes conocimientos y que se paran frente al mundo de una manera distinta. Se nota que saben lo que valen y saben que merecen estar ahí. Vi también que entre nosotras se puede producir una cierta hermandad: sabemos que somos pocas y por lo mismo nos cuidamos entre nosotras.

La gran mayoría de los desarrollos de Google son de código abierto, lo que significa que cualquiera puede ver y aportar en lo que está haciendo el otro. Esto pasa porque entienden que un avance para uno es un avance para la industria, y por ende para la humanidad entera. En cambio, veo que en Chile se suele ocultar los desarrollos, códigos y formas de llevar los proyectos. No vaya a ser que llegue otra persona a quitarte lo que tienes. Vi que la industria tech de Estados Unidos entiende que existe cabida en el negocio para todos y que mientras antes falles, más rápido podrás aprender y crecer.

Esta cultura de compartir el error fue uno de los grandes descubrimientos que rescaté. El fallar no sólo está aceptado si no fomentado: la idea es que falles rápido y ojalá barato, que se comparta la experiencia y se converse sobre el fracaso (este no es ni mal visto ni castigado). Al final del día, todos somos humanos y por lo mismo, todos fallamos.

Tal vez podría decir que este fue uno de los puntos que más me chocaron al volver a Chile. Falta abrirse a la perspectiva del fracaso, a mirar el error como un proceso de aprendizaje mas que un resultado. La filosofía de los participantes de Kaggle, por ejemplo, es muy abierta. Se comparten experiencias respecto a proyectos en los que se han trabajado, lo que consigue que todos avancemos y crezcamos como comunidad dentro de la industria.

Brainstorming en Kaggle Days: Shaping Kaggle’s future

En definitiva, fue un viaje muy enriquecedor. Siento que pude validar mis conocimientos y darme cuenta de que no estamos tan lejos del nivel que se trabaja en Silicon Valley. En una de las reuniones uno-a-uno con staff de Google, tuve la oportunidad de conversar con una persona que trabaja en Machine Learning. Aproveché esta oportunidad para comentarle parte de lo que estamos haciendo en Option, para ver de que forma podríamos mejorar el modelo y su puesta en marcha. Para mi sorpresa, esta persona me comentó que estábamos haciendo lo correcto, la solución al problema que obtuvimos era de alta calidad considerando la cantidad de data que teníamos disponible.

Vamos por buen camino. Sólo nos falta compartir y creernos el cuento, en comunidad.

.

.

¿Tienes algún proyecto digital en mente?
Escríbenos a conversemos@option.cl
¡Seguro podemos ayudarte!

--

--