Google Cloud: Retail con IA, Migrar a Big Data y R para Data Science en GCP

Israel Yance
BigDataLatam
Published in
7 min readNov 26, 2019

Google cada año trae nuevas funcionalidades y estos son tres anuncios de muchos otros que se han hecho este año.

Los servicios en la nube día a día implementan más servicios y funcionalidades para que sean la mejor opción comparados con su competencia. Es así que podemos resaltar estas tres presentaciones disponibles en Youtube, analizando los detalles más resaltantes en cada una.

Reinventing Retail with AI (Cloud Next ‘19)
Migrating a Big Data Environment to the Cloud, The Untold Story (Cloud Next ‘19)
Data Science at Scale with R on GCP (Cloud Next ‘19)

Reinventando el Retail con AI

El mundo vive en un constante cambio que hace que el mundo del Retail sea más competitivo. Y el machine learning y el IA harán grandes transformaciones en este campo en los próximos 10 años.

Es por ello que Google, con todo su experiencia de sus propios productos, pone sus servicios para Retail en la nube, ofreciendo innovación y sobretodo ahorrar la gestión y el costo de contratar equipos de Data Scientist. Y según afirman los clientes presentados, con mejores resultados.

Entre estos servicios innovadores tenemos:

Contact Center AI

Para este servicio Google Cloud creó un AI Agent basado en algoritmos de machine learning que responde el teléfono automáticamente en lenguaje natural, guiando al usuario a través de un flujo de procesos de decisión. Con el objetivo de que el proceso sea corto y la satisfacción del usuario sea alta.

Visual Product Search

Este servicio de Google Cloud permite que las tiendas virtuales puedan tener en su página de búsqueda la opción para que un usuario pueda cargar una foto o vídeo y la tienda le muestre el producto que está buscando. Utilizan algoritmos de machine learning basados en computer vision.

Recommendations AI

Toda la experiencia de Google en sus diversos sistemas de recomendaciones lo ha aplicado en este nuevo producto que promete incrementar el revenue, basados en mayor CTR y conversiones.

Promete dar su propia personalización con su propia data.

AutoML Tables

Este producto de Google Cloud permite crear modelos de machine learning, sin escribir código, con data estructurada.

Además se presentaron tres empresas para contar sus experiencias con los productos de Google:

Nordstrom

Esta empresa tenía la dificultad de que el cuadro de búsqueda de texto no podía ser lo suficientemente acertado para que un consumidor pueda encontrar el producto.

Así, para facilitar a los usuarios que tienen una imagen del producto decidieron utilizar machine learning basados en computer vision para facilitar la búsqueda. Con lo cual diseñaron lo siguiente:

El modelo funcionaba y aunque tenía un 80% de precisión no era lo suficientemente bueno para predecir. Es así que la empresa prueba el producto de Visual Product Search el cual no solo aumentó significativamente la precisión sino que además simplificó la arquitectura de su diseño.

Disney

Esta gran empresa de entretenimiento cuenta con miles de productos en tiendas físicas y virtuales. Y en las tiendas virtuales necesitaban optimizar las ventas que se producían en su sitio web.

Es así que decidieron probar el producto Recommendations AI y compararlo con su actual sistema de recomendaciones a ver cuál le podría dar mejores resultados.

Entre los resultados de la comparación lo que llamó la atención fue en ‘More Like This’, para productos similares. Ya que en su sistema de recomendación recomendaba productos que muchas veces no tenían relación con el producto, en cambio el de Google Cloud presentaba productos visualmente más parecidos.

Además, el sistema de Google les aumentó el CTR, el revenue, y más productos promedio en el carrito de compras. Y dentro de esto, lo más interesante fue que no solo el Recommendations AI de Google era mejor que el sistema de recomendación que tenían, sino que este último ni siquiera era mejor que no usar recomendaciones. Ya que su sistema de recomendación había sido mal implementado y fallaba en móviles, lo cual disminuía todos los KPI.

Pitney Bowes

Esta empresa brinda diferentes soluciones de e-commerce para empresas, la mayoría de ellas en Fortune 500.

Pitney Bowes provee pagos internacionales, detección de fraudes, logística. Entre sus objetivos están el reducir el fraude, reducir el esfuerzo del equipo en detectar potenciales riesgos de fraude, y reducir demoras logísticas a sus consumidores.

La tasa de fraude tiene diferentes valores dependiendo del sector.

Lo principal de la herramienta es que pueda encontrar los patrones para predecir bien y no dé falsos positivos. Así diseñaron un modelo de machine learning supervisado en XGBoost. Además probaron AutoML Tables, donde los beneficios fueron mayores.

Migrando a Big Data

Cada día el mundo se vuelve más complejo para las empresas, ya que se generan más datos y se necesita optimizar toda la arquitectura para que estos datos puedan dar más valor a los usuarios y al negocio.

Este es el caso de LiveRamp, que tenía infraestructura on-premise con 100 PB de almacenamiento Hadoop en más de 2500 servidores y más de 170 aplicaciones en 22 equipos en 5 zonas horarias.

¿Conviene usar la nube? En caso que sí, ¿qué servicio es más conveniente?, ¿cómo se traslada toda esa información a la nube?, ¿cuáles son los costos y cuál es el presupuesto que se tiene? Esas son algunas de las preguntas que se hacen para decidir esos cambios importantes.

Y es más complejo. Como cuenta la empresa, cambiar a la nube es todo un cambio de cultura. Aprender una metodología de trabajo como SCRUM, nuevas tecnologías. A no todos les agrada el cambio y algunos se retiran, mientras otros se adaptan y aumentan sus skills.

Además no hay una verdad absoluta como que AWS o GCP sea mejor que la otra. Depende de los usos que se les vaya a dar y de muchos factores más. Y en este caso nos dan una valiosa lección. El equipo había evaluado el servicio de AWS y no mucho el de GCP, se iba a contratar el primero pero después decidieron revisar mejor y vieron que GCP era mejor. A todo este proceso de evaluación se le llama el decision time y se puede incurrir en sunk cost o costo hundido, pero que es preferible perderlo en la etapa de decisión que cuando ya esté implementado todo.

Lecciones aprendidas

Una migración de esa magnitud dejó muchas lecciones aprendidas. Entre las principales que se mencionaron:

  • La migración es una bestia que merece todo el respeto
  • Tener cuidado con la falacia del costo hundido
  • No tener miedo en tomar decisiones y en contratar cuando sea necesario
  • Se cometerán errores, es inevitable, se tiene que estar preparado para que sean mínimos y el equipo pueda solucionarlos.

Data Science con R en GCP

R es otro de los lenguajes utilizado para Data Science pero que no cuenta con tantas facilidades de implementación a comparación de Python en Machine Learning. Es por ello que Google Cloud, considerando la comunidad creciente que ha adoptado este lenguaje de programación ha sacado diferentes servicios para que Data Scientist puedan trabajar con R en GCP.

R se integra a los servicios de GCP ofreciendo todo tipo de posibilidades para entrenar y predecir resultados. Además de incluir librerías para facilitar el trabajo de los data scientist.

Por ejemplo, tenemos R Studio donde se escribe el código puede tener integrado paquetes personalizados de TensorFlow y Keras para R. Con ello un Cloud Source Repositories para manejar un control de versiones. Google Cloud Storage para la data guardada que alimenta al ML Engine que entrena el modelo y lo guarda en para después que pueda predecir después de una solicitud de una api call.

Una integración importante es con DataProc. A través de Spark scale R , Spark for ML.

Así tenemos un pequeño resumen de lo que se puede hacer con R en GCP:

--

--