Cámaras, ecommerce y aprendizaje automático

Aviso: este post fue publicado originalmente por Benedict Evans, simplemente lo he traducido al español porque me pareció muy interesante. Si deseas leer el artículo original en inglés, pincha aquí.


Móvil significa que, por primera vez, casi todo el mundo en la tierra tiene una cámara, tomando muchas más imágenes que antes fueran utilizadas para una película.

El sensor de imagen en un teléfono es más que una simple cámara que echa fotos — también es parte de nuevas formas de pensar acerca de las UI’s y servicios móviles, y parte de un cambio general de lo que un ordenador puede hacer.

Mientras tanto, los sensores de imagen son parte de una avalancha de componentes básicos baratos que salen de la cadena de suministro de teléfonos inteligentes, que permiten todo tipo de dispositivos conectados — desde Amazon Eco y Google Home a una cerradura de August o las gafas Snapchat Spectacles (y por supuesto los dispositivos IoT hackeados). Cuando se combinan con los servicios en la nube y, cada vez más, con el aprendizaje automático, ya no son sólo cámaras o micrófonos, sino nuevas terminales o distribución de servicios: son piezas desagregadas de aplicaciones. Este proceso está apenas empezando — ahora parece que algunos casos de uso de aprendizaje de máquina pueden ser incrustados en dispositivos muy pequeños y baratos. Puedes entrenar una red neuronal en la nube con una gran imagen, pero para ejecutarlo, puedes ponerlo en un DSP barato con una cámara barata, envolverlo en plástico y venderlo por 10$ o 20$. Estos dispositivos te permitirán usar el aprendizaje automático en todas partes, pero también dejar que el aprendizaje de la máquina vea o escuche en todas partes.

Así que los smartphones y las cadenas de suministro de smartphones están permitiendo una avalancha de UX e innovación en los dispositivos, con el aprendizaje de máquina encendiéndolo todo.

Sin embargo, creo que también vale la pena pensar mucho más ampliamente acerca de lo que la visión informática en particular puede significar ahora — pensar en lo que podría significar que las imágenes y el vídeo se convertirá casi tan transparente para las computadoras como el texto siempre ha sido. Siempre se puede buscar el texto para ‘perro’, pero nunca podrías buscar en imágenes de un perro — ahora serás capaz de hacer las dos cosas, y, además, empezar a obtener un poco de comprensión de lo que realmente podría estar sucediendo.

Deberíamos esperar que cada imagen que fuera tomada sea posible buscarla o analizarla, y obtener algún tipo de información, a escala masiva. Cada archivo de revista brillante es ahora un conjunto de datos estructurado, y también lo es cada feed de vídeo. Con ese incentivo (y esa cadena de suministro de smartphone) muchas más imágenes y video serán capturados.

Así pues, algunas preguntas para el futuro:

  • Cada coche autónomo, necesariamente, capturará videos HD 360 grados siempre que se esté moviendo. ¿A quién pertenece esa información, qué más puedes hacer con el coche más allá de la conducción y cómo se ajusta esto a nuestras ideas de privacidad?
  • Un minorista puede desplegar cámaras HD inalámbricas de productos básicos baratos en la tienda, y finalmente saber exactamente qué camino tomó cada persona a través del edificio, o que vio, y luego conectarlo esa información para extraer datos de compra. ¿Cuánto cambia eso el negocio minorista?
  • ¿Qué le sucede a la industria de la moda cuando media docena de cámaras estáticas de 100$ te pueden decir todo lo que alguien usó en Shoreditch este año, cuando puedes trazar una tendencia a través de la fotografía social y callejera desde el comienzo hasta el mercado de masas, y luego buscar los siguientes patrones emergentes?
  • ¿Qué sucede con las recomendaciones de comercio electrónico cuando un sistema puede ser capaz de inferir cosas sobre tu gusto de tu cuenta de Instagram o fotos de Facebook, sin necesidad de etiquetas o historial de compra — cuando se puede ver tu historial de compra en tus selfies?

Los minoristas online han sido extremadamente buenos en la logística, pero mucho menos buenos en el descubrimiento y la recomendación — mucho menos buenos en mostrarte algo que no conocías que quizá te gustara (‘El Facebook del comercio electrónico’). A veces comparo a Amazon con Sears Roebuck hace un siglo — te permiten comprar todo lo que puedas comprar en una gran ciudad, pero no te permiten comprar de la manera que puedas en una gran ciudad. (Creo que esto es también una gran razón por la que las ventas de libros electrónicos han dejado de crecer— ¿qué comprar?)

Ahora, supongamos que compras los últimos diez años de Elle Decoration en eBay y los colocan en las redes neurales adecuadas, y luego dan a ese sistema una foto de tu salón y preguntan qué lámparas recomiendan. Todas esas fotos, y su alrededor, son datos de entrenamiento. Y, sin embargo, si no muestras al usuario una foto real de ese archivo, sólo una recomendación basada en ella, es probable que no tengas que pagar nada al editor de la impresión original. (El aprendizaje de máquinas será una arena fértil para los abogados de PI.) No tenemos esto todavía, pero sabemos, prácticamente, cómo podríamos hacerlo. Tenemos una hoja de ruta para reconocer algún tipo de preferencias, automáticamente, a escala.

Lo importante aquí es que las demostraciones agradables de la visión computarizada que reconocen a un perro o un árbol, o un peatón, son sólo los primeros casos de uso obvios para una nueva capacidad fundamental: leer imágenes. Y no sólo para leerlos de la manera que los humanos podemos, sino para leer un billón y ver los patrones. Entre muchas otras cosas, eso tiene implicaciones para muchos minoristas, incluyendo partes que no están realmente afectadas por Amazon, y de hecho si por los 500bn $ gastados cada año en publicidad.

Realmente, sin embargo, no sabemos cuáles son todas las implicaciones. He sugerido algunas de las crasas posibilidades comerciales que salen de esto, pero hay muchas más. La ciencia ya ha derribado algunas atribuciones del Antiguo Maestro y creado otras — ¿podríamos encontrar, o no encontrar, un Rembrandt? ¿Transcribiremos el Cairo Geniza en una década en lugar de un siglo? Cuando podamos convertir imágenes en datos, encontraremos muchos conjuntos de imágenes que nunca antes habíamos pensado como datos antes, y muchos problemas que no parecían problemas de reconocimiento de imágenes.


Espero que te haya gustado tanto como a mi este innovador enfoque del comercio y la tecnología que nos presenta Benedict Evans. De ser así, házmelo saber dándole al ❤️.

Si has leído hasta aquí y quieres saber más de ecommerce, marketing y redes sociales, no olvides suscribirte a nuestra newsletter semanal.

Like what you read? Give Carlos Tíscar a round of applause.

From a quick cheer to a standing ovation, clap to show how much you enjoyed this story.