El automágico traje del emperador

Un experimento sobre sesgo y bajo rendimiento en la IA de reconocimiento de imágenes

ujue agudo
bikolabs
15 min readSep 9, 2020

--

por Ujué Agudo y Karlos G. Liberal, miembros de Bikolabs, el laboratorio de Biko

En mayo de este año, la revista Science se preguntaba si nos hemos forjado una imagen sobre la Inteligencia Artificial que no se corresponde con su rendimiento real.

Pongamos el caso de la IA de reconocimiento de objetos. ¿Qué “ven” los algoritmos de reconocimiento de imágenes cuando nos “miran”? ¿Realmente identifican lo que hacemos, el contexto en el que nos encontramos, la persona que aparentemente somos, tal y como se presupone? ¿Su interpretación de la imagen resulta neutral y libre de sesgos? ¿Cómo de precisas son estas piezas de software que se ofertan al mercado como soluciones de inteligencia artificial de aplicación rápida y sencilla?

Hemos analizado el etiquetado y la descripción de imágenes de hombres y mujeres (algunos de ellos portando objetos que históricamente se han asociado con estereotipos de género) mediante algunos productos del mercado y algunos modelos pre-entrenados de inteligencia artificial. Los resultados (nefastas descripciones de las fotografías, etiquetado diferente entre hombres y mujeres, objetos que resultan invisibles dependiendo del género…) nos llevan a sumar un par de preguntas a las planteadas inicialmente: ¿Realmente la IA de reconocimiento de imágenes está en el momento de eficacia que vende el mercado? ¿o estamos confundiendo con magia lo que no llega ni a ser un truco bien ejecutado?

Esta es una historia (y un experimento) sobre modelos automágicos que no realizan adecuadamente la tarea para la que han sido creados y cuyo desempeño se encuentra incluso sesgado. El emperador está desnudo y es hora de señalarlo masivamente con el dedo.

La amplitud mágica de la Inteligencia Artificial

De un tiempo a esta parte, a pesar de la fe puesta en los supuestos superpoderes de la IA, hemos tenido que asumir que ni es tan objetiva ni tan neutral como se deseaba creer. En muchas ocasiones es ineficaz, discriminatoria, sexista y racista. Algo que no resulta extraño dado que los humanos, presentes en todo el ciclo de vida de la IA, podemos trasladar nuestras subjetividades y sesgos a la máquina en todas las fases del proceso.

Ciclo de vida de la IA con el riesgo de sesgo humano en cada una de sus fases
El riesgo del sesgo humano en las diferentes etapas del ciclo de vida del Machine Learning, publicado por Catherina Xu y Tulsee Doshi en https://ai.googleblog.com/2019/12/fairness-indicators-scalable.html

Con el aumento de conciencia sobre esta cuestión, se ha incrementado también el esfuerzo por identificar estos sesgos e idear formas de paliarlos (desde la investigación sobre prácticas y herramientas técnicas para su mitigación hasta la sugerencia de una nueva disciplina científica que analice el comportamiento de los algoritmos).

Aunque se trata de estrategias necesarias para abordar el problema de los sesgos en la IA, todas ellas asumen como inevitable su aplicación como respuesta a un problema, obviando el paso previo de determinar si el problema a abordar puede considerarse terreno adecuado para una IA o no (a nivel práctico y concreto, no sólo a nivel teórico).
Pongamos el caso del reconocimiento de objetos. Se ha determinado que es un campo adecuado para la IA y por ello podemos encontrar en el mercado productos comerciales como Amazon Rekognition o modelos y arquitecturas de redes neuronales profundas como Img2txt o MobilNet dedicadas a ello. Estas IAs identifican objetos en imágenes o vídeos y los etiquetan o describen. ¿Con qué fin? Actualmente sus áreas principales de aplicación son la búsqueda visual de productos en ecommerces y similares, la organización automatizada de fotografías en repositorios de imágenes, el etiquetado automático de éstas, la moderación de contenido en base a ese etiquetado o la accesibilidad. Pero a futuro se espera que estas IAs permitan una experiencia mejor con Realidad Virtual y Aumentada, faciliten el reconocimiento facial, clasifiquen imágenes en medicina o habiliten la conducción autónoma, todo ello con garantías.

El reconocimiento de imágenes se concibe como una aplicación muy acotada de la IA, ajustada a sus capacidades actuales (Weak o Narrow AI) y con el foco adecuadamente puesto en resolver un tipo de problema concreto. Algo muy alejado de los cantos de sirena de la Inteligencia Artificial General (o AGI), cuya aspiración consiste en igualar o superar la inteligencia humana y que de vez en cuando vuelve a resonar en nuestros oídos como ha ocurrido recientemente con el lanzamiento del GPT-3.

Sin embargo, aún siendo conscientes de sus limitaciones de la IA, como en este caso, tendemos a tratar de resolver con ella problemas complejos a base de simplificaciones al extremo. Como cuando pretendemos que una IA nos recomiende qué película ver esta noche pero también a qué canguro contratar para cuidar de nuestros hijos o qué zonas de la ciudad patrullar para evitar crímenes.

Llevamos décadas sin poder responder a preguntas complejas como cuál es el objetivo del castigo en justicia penal, por ejemplo, y sin embargo esperamos que una tecnología sea capaz de predecir la futura actividad delictiva de una persona y con ello determinar las condiciones de su libertad condicional. O que una IA evalúe el desempeño académico de unos estudiantes que no han podido terminar adecuadamente el curso a causa de una pandemia.

En comparación con estas áreas de aplicación, la tarea de reconocimiento de objetos puede parecer simple pero, ¿de verdad nos parece que identificar adecuadamente los elementos del mundo es una tarea concreta y acotada y por tanto perfecta para las IAs? Valorémoslo, porque como bien indican Kate Crawford y Trevor Paglen del AI Now Institute, “las imágenes no se describen a sí mismas”, por lo que “la interpretación automatizada de imágenes es un proyecto intrínsecamente social y político”.

Tomemos el caso de un experimento reciente, en el que, testando varios sistemas de reconocimiento de objetos como Google Cloud Vision, Amazon Rekognition o IBM Watson encontraron que su precisión era un 15% más alta cuando analizaban fotografías de objetos cotidianos (como un jabón de manos) tomadas en EEUU, que cuando lo hacían con las tomadas en lugares como Somalia o Burkina Faso. Representar el mundo mediante la clasificación del universo de objetos que forman parte de nuestra realidad suena, cuando menos, complejo.

Pero es que la propia situación de la inteligencia artificial en reconocimiento de imágenes también es un tanto compleja y convulsa. Por un lado, desde el mercado se proponen productos de fácil uso con el apellido de inteligencia artificial (tipo Amazon Rekognition o Google Cloud Vision) y un propósito casi genérico, que abarca desde identificar objetos, a determinar si un contenido es inapropiado, analizar rasgos faciales o registrar movimientos.

Por otro lado, tenemos toda una nueva industria del desarrollo, donde se mezcla la investigación pura con modelos y arquitecturas basadas en redes neuronales (como Img2txt o MobileNet) entrenadas específicamente para tareas y usos concretos, pero que también están siendo utilizadas como modelos pre-entrenados de aplicación más amplia desde herramientas como RunwayML.

Según el punto de entrada de la persona interesada en utilizar estas soluciones de inteligencia artificial, se podría llegar a pensar que el uso de la IA es tan específico y complejo como diseñar y entrenar una red neuronal convolucional con un dataset propio, o todo lo contrario: un uso tan genérico y sencillo como contratar un producto del mercado o usar una herramienta online. Y el riesgo de las soluciones genéricas en terrenos que no son de comprensión simple es que generan la ilusión de magia.
De hecho, como afirma Donald Norman en su libro “El diseño de los objetos del futuro”, “si los aparatos automáticos e inteligentes funcionaran a la perfección, seríamos felices. Si de verdad fueran totalmente fiables, no tendríamos por qué saber cómo funcionan: la automagia estaría muy bien (…) Pero cuando nos quedamos atrapados en el mundo intermedio de los aparatos automáticos que no entendemos y que no funcionan como esperamos, o que no llevan a cabo la tarea que queremos realizar, entonces la vida no es más fácil y, sin duda, no es más agradable”.

El mundo contemplado por las IAs es muy limitado

En el reconocimiento de imágenes, las IAs encuentran e identifican objetos y los asocian con las etiquetas y categorías en las que se han entrenado. La mayoría de modelos pre-entrenados de IA utilizan un volumen limitado de categorías. Aunque el dataset en el que se basan muchos de estos modelos, ImageNet, contaba inicialmente con 21.000 categorías, estos modelos en su mayoría ahora sólo utilizan 1.000 de estas categorías.

Si bien tratar de reducir el análisis del universo visual a sólo 1.000 etiquetas puede entenderse como demasiado simplista, lo cierto es que en el sector no se considera un problema dado que se asume que los modelos pre-entrenados, como hemos comentado, se podrán volver a entrenar para la tarea específica que vayan a realizar (por ejemplo, distinguir entre fotos con pizza o hamburguesas), en lugar de utilizarse para evaluar toda la realidad de objetos del mundo.

Sin embargo, si no conocemos cuáles y cuántas son las categorías contempladas por el modelo que vamos a usar (que puede encontrarse en la documentación técnica de algunos de ellos, pero no de todos), al aplicar la IA en categorías para las que no ha sido entrenada su desempeño parecerá muy pobre. Es lo que sucede cuando utilizamos redes neuronales como MobileNet en su aplicación genérica a través de RunwayML o de ML5js, por poner un caso. MobileNet, que no contempla la categoría “Persona” entre sus 1.000 categorías, si es utilizada para analizar fotos de personas nos devuelve desconcertantes resultados.

Foto 1, con “túnica” como etiqueta principal. Foto 2 etiquetada como “armadura”
Foto 3 etiquetada como “colador”. Foto 4 como “peluca”

Si por el contrario el modelo tiene en cuenta la categoría “Persona”, lo que descubrimos no son malos resultados, sino otros problemas, como sesgos sexistas, raciales… La presencia originariamente de etiquetas poco adecuadas en la categoría “Persona” (incluyendo insultos racistas y términos misóginos) fue evidenciada por Crawford y Paglen en su artículo “Excavating AI”. Como los autores relatan, las etiquetas encontradas en ImageNet, que se basan en la conocida estructura semántica desarrollada por la Universidad de Princeton, WordNet, utilizan términos como “pervertido, solterona, zorra, ramera, semental, pajero, perdedor o cabrón”.

Captura del árbol de etiquetas de ImageNet publicado por Kate Crawford and Trevor Paglen en su artículo Excavating AI

Para evidenciar esta situación, desarrollaron un proyecto de arte, ImageNet Roulette, del que se hicieron eco en los medios de comunicación y provocó que ImageNet eliminara hasta 600.000 fotografías de esa categoría. Al tiempo el proyecto también fue eliminado.

Dede Bikolabs quisimos recrear esta historia utilizando el sistema de categorías completo de ImageNet con el antiguo modelo Full ImageNet Network, que sí contempla las 21.000 categorías originales(incluida la categoría “Persona”). Y lo que encontramos fueron cosas como estas:

Conocer qué categorías contemplan las IAs actuales no es siempre sencillo, como hemos comentado. Algunos de softwares comerciales como Amazon Rekognition, no informan sobre el número de categorías que utilizan o cómo de detalladas o genéricas son éstas, por lo que resulta complejo acotar la expectativa sobre su eficacia esperada o detectar posibles sesgos en la categorización que se realizó durante su entrenamiento.

A ciegas con los datasets de entrenamiento

Descubrir no sólo bajo qué criterio las redes neuronales clasifican las imágenes sino incluso con qué datasets (y qué labels) se han entrenado resulta misión aún más imposible debido a la opacidad de las IAs y la de sus empresas propietarias. ¿Cómo obtuvieron su dataset de entrenamiento? ¿Utilizaron material gráfico propio o scrapearon el material de plataformas como Flickr y similares? Esta segunda opción es el caso del dataset de IBM, creado para entrenar redes neuronales con casi un millón de imágenes, en el que los propietarios de las fotografías no fueron informados de su uso por parte de la compañía.

Pero además de la fuente de la que se obtienen las imágenes en bruto, es importante conocer las imágenes que se han utilizado para ejemplificar cada categoría, de forma que IA pudiera identificar y taguear adecuadamente objetos a futuro. Que dichas imágenes sean adecuadas para la etiqueta que representan puede ser crucial. Un contraejemplo de esto son las imágenes correspondientes a la etiqueta “girl” del mencionado dataset ImageNet, donde encontramos que las fotografías son cuando menos poco apropiadas para la etiqueta en cuestión…

…y no muy diferentes de las representan la etiqueta “woman”.

Puede que la falta de coherencia entre las etiquetas y las imágenes de estas categorías sea la causa de que, como señalamos desde Bikolabs hace unos meses, Google Images etiquete las fotografías de mujeres de forma generalizada como “girl” independientemente de su edad y su aspecto, pero sea más rico en etiquetas con las fotografías de hombres.

Etiquetado de fotos de mujeres en Google Images como “girl”
Etiquetado de fotos de hombres en Google Images como “gentleman”, “spokesperson” o “surfer hair”

Este pobre desempeño podría deberse también a una discordancia entre el enfoque de las imágenes de entrenamiento y el de las fotografías analizadas. Un ejemplo: si consultamos la categoría “escoba” en ImageNet, encontramos que la mayoría de fotografías de entrenamiento para esta etiqueta carecen de contexto de uso. El foco de las fotografías se pone en el objeto en solitario.

Al utilizar después un modelo que contempla la categoría escoba, como es el caso de MobileNet, para analizar fotografías donde el objeto se encuentra en su contexto de uso, la IA encuentra ciertas dificultades para distinguirlo de objetos “similares” como arpas, mopas o muletas.

Foto 1 etiquetada como “arpa”. Foto 2 como “muleta”
Foto 3 etiquetada como “valla”. Foto 4 como “mopa”

Y dado que hemos señalado el etiquetado como labor clave, ¿sabemos quién etiquetó las fotografías de los modelos pre-entrenados? ¿Fueron humanos o fue otra IA la que realizó esta tarea? En el caso de Amazon, por ejemplo, la compañía cuenta tanto con un “ejército” de humanos que realizan labores en esta línea (a través del servicio Amazon Mechanical Turk, que se ha utilizado por ejemplo para la construcción del dataset Coco), como con productos de etiquetado automático (como el servicio Amazon SageMaker Ground Truth). Pero no podemos conocer por cuál de estas opciones u otras ha optado la compañía para etiquetar su dataset.

Desempeño en entredicho

No siempre los malos resultados del reconocimiento de objetos se derivan de una mala elección de las imágenes de entrenamiento. A veces, simplemente, es que ponemos una expectativa a su rendimiento que no es realista.

Pongamos el caso de Img2txt que devuelve una descripción textual de las imágenes en lugar de etiquetas sueltas, habiéndose entrenado para ello con 20.000 imágenes descritas con una breve frase. Si accedemos a las fotografías de entrenamiento y las utilizamos para evaluar el modelo, descubrimos que las discrepancias entre las descripciones de entrenamiento y los resultados ofrecidos son amplias.

Toda la riqueza de las descripciones de las fotografías en el dataset de entrenamiento (“a blond tourist and a local woman on a train with red seats”, en el archivo de texto) se pierde en el resultado devuelto por el modelo (“a couple of women standing next to each other”).

Entendemos que, cuando la tecnología esté lo suficientemente madura como para que los modelos de procesamiento de imágenes puedan cruzarse con un buen modelo de procesamiento de lenguaje natural, el resultado mejorará. Sin embargo, mientras, necesitamos ser conscientes del nivel de precisión que actualmente pueden devolver estas IAs antes de implantarlas a ciegas.

Resultados sesgados

Además de los problemas anteriores, en el transcurso de este análisis sobre el desempeño de las IAs de reconocimiento de objetos, encontramos que, en ocasiones, los resultados parecían mostrar sesgo de género. La alerta saltó cuando, jugando con una app para el sector del shopping, CamFind, descubrimos que al eliminar un objeto de una fotografía, la descripción cambiaba significativamente.

Imagen original
Descripción de la imagen al pasarla por CamFind, con literal “vestido de mujer azul y negro” en la foto original con escoba y “polo de hombre a rayas azules y negras” si borramos la escoba

Por ello, nos lanzamos a analizar con Amazon Rekognition e ImageNet fotografías de personas que portaban objetos históricamente estereotipados, contrastando los resultados con los “dobles” de estas fotografías con el género aparente de éstas cambiado. Nuestro objetivo era que la comparación se realizara entre fotografías lo más similares posibles.

Lo que encontramos en Amazon Rekognition, igual que ocurría con CamFind, es que la fotografía se etiquetaba diferente según el género aparente. Pero en este caso, o el objeto era visible en una fotografía pero no en su par, o se confundía con otro objeto, o devolvía etiquetas que parecían tener relación con el género aparente de la persona fotografiada.

Mientras que en la foto original no se detecta el objeto “taladro”, en la foto modificada por FaceApp sí
En ninguna de las dos fotografías se detecta el taladro, pero a la modificada se le asocia la etiqueta “cleaning”
El objeto “martillo” sólo se detecta en la foto modificada para parecer hombre
En la foto original se detecta el casco y se asocia con profesiones relacionadas, mientras que en la modificada no se detecta nada
En la foto original el objeto se confunde con un secador, mientras que en la modificada no
La actividad se detecta en la foto original, “cleaning”, pero no en la modificada. Además, las etiquetas sobre la posible profesión de la persona fotografíada cambian entre ambas imágenes: “Nurse” vs. “Worker” y“Student”
No se detectan los objetos ni la actividad en la foto original, pero sí en la modificada: “cleaning”

Por su parte, analizando las fotografías con Img2txt, encontramos que las descripciones también cambian según el género aparente, pero, en esta ocasión, los resultados que nos devuelve resultan disparatados en ambos casos. Algunos ejemplos:

La IA “ve” un mando de videojuegos o una banana en lugar de un taladro o un spray
Unas tijeras o un móvil en vez de un martillo
Una tabla de snow o una maleta en lugar de herramientas varias
Una raqueta de tenis o un frisbee en lugar de una escoba
Un friesbee o un osito de peluche en lugar de objetos de limpieza

Además, en Amazon Rekognition encontramos que cuando se identificaba el género (binario) de la persona en la fotografía, a los hombres sólo se les asigna una etiqueta (Man), mientras que a las mujeres más (Woman, Female, Girl). Como decíamos antes, conocer el listado de categorías y su jerarquía, resultaría de gran utilidad en estos casos.

En las fotografía donde la persona aparenta ser una mujer, las etiquetas referentes al género son más abundantes

A la vista de estos resultados, iniciativas como la de Google IA de dejar de mostrar el género en el etiquetado de imágenes no parece que vayan a resolver completamente el problema de los sesgos.

Conclusiones

Se estima que el “Mercado Global de Búsqueda Visual” superará los $14.7 mil millones para 2023. Mientras, y quizá por esta misma expectativa, el mercado sigue sin querer desprenderse del halo mágico que envuelve a la IA, agasajándola con el traje nuevo del emperador.

En Bikolabs pensamos que la imagen mágica e idílica sobre la IA que se nos ha querido vender en realidad no favorece nada al sector. Quizá sea complicado que vayamos a sufrir otro invierno de la IA, pero es posible que, como apunta Jeffrey P. Bigham, lo que sí llegue es un otoño en el que, aunque podamos recoger la cosecha de nuestros esfuerzos bien empleados al aplicar IA en problemas concretos, el hype vacío que aún hoy sustenta el mercado se deshinche.

Va siendo hora de señalar la desnudez del emperador y de evidenciar las limitaciones e ineficiencias de aquella IA estrecha que se enfocó de forma demasiado ancha.

--

--

ujue agudo
bikolabs

Consultora de negocio y UX en Biko apasionada de la creatividad, Lean UX, Design thinking y el estudio del comportamiento humano. Profesora en Unav.es