Deepfake, cuando la IA te robe la cara

Karlos g liberal
bikolabs
Published in
5 min readOct 21, 2019
La casa de blanco y negro, el templo de muchos rostros

Cada día aparecen nuevos videos donde se demuestran capacidades técnicas en la manipulación y generación de imágenes usando Inteligencia Artificial. La deepfake es una de las técnicas más populares. Un deepfake es un vídeo modificado utilizando tecnología de intercambio de caras. Se basa en machine learning, una de las rama de la Inteligencia Artificial.

Un ejemplo son los video que se muestran a continuación. En el primero, un imitador interpreta a distintos actores mientras la IA cambia la cara del imitador por la del famoso. En el segundo vídeo, la cara de Jack Nicholson es sustituida por la de Jim Carrey en varias escenas del resplandor con resultados asombrosos e inquietantes.

Uno de los retos del machine learning durante estos años ha sido el reconocimiento de imágenes. Proyectos como COCO o Imagenet han revolucionado esta rama de la visión por computadoras. Clasificar imágenes ya no es un reto, el reto ahora está en generarlas.

Las Deepfake podrían englobarse en la categoría de los sistemas generativos. Las Redes Generativas Adversas o adversarias (GAN) son la gran revelación del deep learning, una de las ramas más prolíficas del machine learning en estos últimos dos años.
Simplificando mucho, una red generativa adversa se entiende fácilmente con la metáfora de un imitador y un crítico de arte. El primero intentará crear obras (es la parte generativa), el segundo revisará las imágenes que genera el imitador par ver si dan la talla.

Para lograr generar imágenes se requiere entrenar estos modelo con imágenes reales. El crítico de arte (la red convolucional de clasificación) usará estas imágenes para realizar la valoración.

En los sistemas generativos, la generación de caras verosímiles ha sido uno de los retos más conocidos y son muchos los que han ido evolucionando las técnicas.

Estas caras han sido generadas por el grupo de investigación de Nvidia mediante el modelo Stylegan (una evolución de GAN) y el dataset público de rostros humanos Flickr-Faces-HQ (FFHQ) que cuenta con 70,000 imágenes de alta calidad. El resultado es impresionante. Cualquiera de nosotros tendríamos dificultades para afirmar que estos rostros no son reales.

Con estos sistemas generativos podemos crear caras nuevas, podemos sustituir una cara por otra, pero se puede ir más allá.
El modelo pix2pix es un ejemplo de la evolución de estos GAN. En este caso, el entrenamiento de las redes neuronales lo hacemos con una relación de imágenes y el proyecto viene con varios dataset de ejemplo, como se muestra a continuación:

Pix2pix

Tomemos el caso de la imagen de una fachada como esta. Para entrenar el dataset cuentan con entorno a 400 imágenes de fachadas y sus equivalente de fachada segmentada. Los colores de estos segmentos son las distintas partes de la fachada: ventanas, balcones, puertas. Una vez entrenada la red podemos inferir del modelo entrenado y crear una herramienta de generación de fachadas.

https://hype.codes/pix2pix-neural-network-work-real-time

Poder crear imágenes no es algo tan novedoso, el cine nos lleva deleitando con sus fantasías CGI un montón de años incluso para crear cosas innecesarias como “Polar Express”. Pero es una labor de modelado no un sistema automático basado en Inteligencia Artificial

DeepNude es el ejemplo donde se vislumbra el absurdo e innecesario uso de estas tecnologías.

El canal de youtube Dot CSV tiene un video explicando el tema de forma magistral.

¿Todo lo que se puede hacer se debe hacer?

Hablando con Aritz Suescun compañero de trabajo y de nuestro podcast Más allá de Orión nos surge otra pregunta ¿se ha dejado de hacer algo alguna vez?

La idea absurda que algunos tienen del progreso nos nubla la vista. Somos como Amundsen y Scott en un Tesla “a toda ostia”. ¿En serio tenemos que hacer realidad todo lo que se nos pase por la cabeza? ¿O por las gónadas? Tendríamos que poder imaginarnos un futuro sin que algún impertinente nos tenga que poner ejemplo simplones como: “también un cuchillo puede ser arma”

Posiblemente los sistemas generativos contarán con miles de posibles buenos usos, eso seguro. ¿Pero malos, cuántos habrá? ¿Más? ¿Menos? ¿Lo hemos pensado? ¿Hemos perdido un minuto en medir las implicaciones que tiene todo esto? ¿Hemos evaluado si pix2pix es un cuchillo o es una bomba?

Construimos una máquina imparable de producir paranoia, ese estado donde uno desconfianza y acumula recelos hacia los demás de forma prolongada. Y lo hacemos a tumba abierta.

Los sistemas generativos que proporciona el deep learning acaban de aparecer. La vistosidad de las imágenes y los vídeos, agitan nuestra atención. Pero una vez que hemos puesto la máquina a generar, va a resultar difícil pararla.

¿Qué será lo siguiente a generar? ¿Nuestras posturas? ¿La voz? ¿La escritura?

Tik Tok cuenta con la mayor base de datos de expresiones del mundo. Se trata de una red social donde sobre todo se comparte la expresión. ¿Qué tal si creamos una IA que genere expresiones?
Nuestra caras, nuestras expresiones son algo casi único, una característica singular de nuestra identidad. Que esa singularidad se pueda capturar, generar, comerciar o vender debería preocuparnos. Podemos encontrar una interesante y profunda reflexión sobre la idea de vender la identidad digital en la gran película El congreso.

Saltarse el limite de la identidad que otorga el rostro tiene un coste elevado, doloroso, incómodo o penitente. El cine ha venido a mostrar el sufrimiento que implica saltarse dicho tabú.

Minority report
Harry potter y el zumo multijugos
total recall
Juego de tronos

Estamos creando máquinas que nos generan aún mayor desconfianza sobre lo que vemos, sin siquiera tener claro el objetivo último de tales máquinas.

Resulta fácil buscar respuestas simples a toda esta complejidad, pero considero que nos encontramos en un momento de una fragilidad extraordinaria y que los sistemas generativos pueden contribuir a que nuestras vidas resulten menos deseables.

Todos podemos pasearnos por la paranoia, y abrazar el cinismo afirmando que esto no va conmigo, que no va con mi cara.

Igual en el futuro echaremos de menos poder mostrar nuestra cara.

--

--

Karlos g liberal
bikolabs

Buscando Patrones desde el siglo pasado. Responsable de bikolabs en @biko2 . Con @ArtziS hacemos el podcast @estamosenorion