“WORD EMBEDDING” y la demostración del lenguaje sexista

Published in

Psicología del Lenguaje — ugr

3 min readNov 30, 2018

El objetivo del Procesamiento del Lenguaje Natural (PLN) es que la tecnología (entre ellos los bots) sean capaces de entender, interpretar y manipular el lenguaje humano.

Uno de los métodos empleados, es representar las palabras con un vector. El verdadero avance en este tipo de técnicas llega con los métodos basados en redes neuronales. Estos métodos se conocen como modelos predictivos, que intentan predecir directamente una palabra a partir de las palabras que vienen al lado en términos de vectores pequeños y densos que se aprenden durante el entrenamiento. La idea detrás de estos métodos es que si podemos predecir en qué contexto aparece una palabra, entonces significa que entendemos el significado de la palabra en su contexto. Así, las palabras se representan en espacios vectoriales donde palabras semánticamente similares se encontrarán cerca entre ellas. Este tipo de representación recibe el nombre de “word embeddings”.

Dicha representación tiene propiedades de agrupamiento útiles, ya que agrupa palabras que son semánticamente y sintácticamente similares.

Por ejemplo esperamos que las palabras “delfín y foca” se encuentren cerca, pero “París” y “delfín” no se encuentren cerca ya que no existe una fuerte relación entre ellas.

Por lo tanto, las palabras se representan como vectores de valores reales, donde cada valor captura una dimensión del significado de la palabra. Esto provoca que palabras semánticamente similares, tengan vectores similares. De forma simplificada, cada dimensión de los vectores representa un significado y el valor numérico en cada dimensión captura la cercanía de la asociación de la palabra a dicho significado

Hasta aquí la explicación de “word embeddings”. Es un tema realmente interesante para saber cómo los bots interpretan el lenguaje humano y por lo tanto como introducirlo en ellos, pero también es realmente complejo. Es una explicación muy superficial de la técnica, pero suficiente para seguir con la segunda parte de la publicación, así que para aquell@s que les interese el tema, os dejo un video para que profundice: https://www.youtube.com/watch?v=5PL0TmQhItY.

Gracias a la técnica” word embeddings”, se ha podido comprobar cómo el lenguaje de muchos textos digitales, o que han sido digitalizados, muestra un sexismo propio de la sociedad en la que vivimos. Para explicar esto me basaré en un estudio:

Un equipo de investigación de miembros de Google, pusieron a una red neuronal a trabajar sobre tres millones de palabras extraídas de textos de Google News. El objetivo de la red era buscar patrones en la manera en la que las palabras aparecen juntas dentro del texto.
Resultó que las palabras con significados similares ocupan partes similares de este espacio vectorial. Por ejemplo: “hombre:rey :: mujer:reina”. Otras relaciones emergieron pronto también como “hermana:mujer :: hermano:hombre” y así sucesivamente. Estas relaciones se conocen como “incrustaciones de palabras” o “palabras embebidas”.
Los investigadores afirman que existe un problema con esta base de datos: es claramente sexista. Y ofrecen bastantes pruebas para respaldar esa afirmación gracias a una serie de consultas sobre el espacio vectorial para encontrar incrustaciones de palabras. Por ejemplo, es posible plantear la pregunta: “París:Francia :: Tokio:x” y el sistema proporcionará la respuesta “x = Japón”. Pero, al plantearle a la base de datos “padre:médico :: madre:x” y contestará, “x = enfermera”. Y la consulta “hombre:ordenador :: programador :: mujer:x” devuelve “x = ama de casa”.

Y este es solo un ejemplo. Si se realizará el análisis de otros cientos o miles de textos seguramente saldrían unos resultados similares. De aquí la importancia que tiene la correcta integración del lenguaje en un bots, para que en su aprendizaje no realice este tipo de asociaciones sexistas.

CON ESTE ANÁLISIS DEL LENGUAJE DEMOSTRAMOS OTRA VEZ MÁS EN LA SOCIEDAD SEXISTA EN LA QUE VIVIMOS.

BIBLIOGRAFÍA.

“WORD EMBEDDING” y la demostración del lenguaje sexista

CON ESTE ANÁLISIS DEL LENGUAJE DEMOSTRAMOS OTRA VEZ MÁS EN LA SOCIEDAD SEXISTA EN LA QUE VIVIMOS.

Written by Javier Quesada Jódar