La Verdad Sobre el Sesgo en Inteligencia Artificial

¿Qué es el sesgo en la inteligencia artificial y qué puede hacer al respecto?

Published in

Ciencia y Datos

10 min readSep 23, 2019

Traducido por Carlos Secada y Juliana Luque del original por Cassie Kozyrkov (editado por Felipe Chiriboga)

El problema del sesgo en IA empieza -pero no termina- con la definición misma del término “sesgo”. Este término está sobrecargado y tiene un significado drásticamente distinto bajo diferentes contextos.

A continuación encontrará algunas definiciones de “sesgo” (cuya traducción al inglés es “bias”) para que examine con detenimiento.

En estadística, el sesgo es la diferencia entre el valor esperado de un estimador y su estimado (estimado se entiende como el verdadero valor del parámetro a estimar). Esto es terriblemente técnico, así que permítanme traducir. El sesgo se refiere a resultados que están sistemáticamente fuera de lugar. Piense en el tiro con arco, e imagine que apunta incorrectamente. El sesgo alto no significa que está disparando hacia todas partes (eso en realidad significa que está generando una gran variación), pero que está haciendo tiros perfectos pero debajo de la diana todo el tiempo. En este uso, la palabra “sesgo” tiene poca connotación emocional.

En la recopilación de datos (y también en estadística), se refiere la manipulación de la recopilación de datos para que su muestra no sea representativa de su población de interés. “Sesgo muestral” es el nombre formal aquí. Este tipo de sesgo significa que no puede confiar en sus resultados estadísticos.
En la psicología cognitiva, sesgo se refiere a la desviación sistemática/distorsión de la racionalidad. Cada palabra en esta definición (excepto “de” y “la”) está llena de matices específicos del campo de la psicología. ¿Traducción a los términos laicos? ¡Sorpresa! su cerebro desarrolló algunas formas de reaccionar a las cosas y los psicólogos inicialmente encontraron esas reacciones sorprendentes. La lista de sesgos cognitivos catalogados es sorprendente.
En los algoritmos de redes neuronales, el sesgo, en esencia, es un término que se refiere a la intersección. (“sesgo” suena mejor que esa palabra matemática que nos enseñaron en la escuela secundaria, ¿verdad?)
En las ciencias sociales y en la física, el sesgo se refiere a cualquier fenómeno que implica una influencia excesiva de condiciones pasadas -irrelevantes- o decisiones actuales. Los ejemplos incluyen el sesgo cultural.
En la geometría, se define sesgo como la oblicuidad o torcimiento de una cosa hacia un lado.
En el campo del electromagnetismo, sesgo se refiere a un voltaje fijo de corriente continua (CC) o corriente aplicada en un circuito con señales de corriente alterna (CA).
En lo que la mayoría de los expertos en IA piensan, el sesgo se refiere al sesgo algorítmico que ocurre cuando un sistema informático refleja los valores implícitos de los humanos que lo crearon. (¿No es todo lo que los humanos crean un reflejo de valores implícitos?)
Finalmente, en el que la mayoría de la gente piensa, el sesgo se refiere a la forma en que nuestras experiencias pasadas distorsionan nuestra percepción y reacción a la información, especialmente en el contexto de tratar a otros humanos injustamente o de cometer actos perversos. Algunas personas usan la palabra “sesgo” como sinónimo de prejuicio.

Oh oh… Hay bastantes significados aquí, y algunos de ellos son más picantes que otros. De hecho existe un abanico de significados que puede continuar explorando aquí.

De cuál sesgo está hablando IA?

La joven disciplina de IA tiene el hábito de tomar prestada jerga de todas partes (a veces aparentemente sin buscar el significado original), por lo que cuando las personas hablan de sesgos en IA, pueden estar refiriéndose a cualquiera de las definiciones anteriores… Imagine que en este momento usted está preparándose para una catarsis emocional en un artículo rimbombante que promete corregir el sesgo en la IA… solo para descubrir (varias páginas después) que el sesgo del que están hablando es el estadístico.

Aquel que está de moda para hablar es el que obtiene la atención de los medios. El abominable. Por desgracia, incluso traemos todo tipo de sesgos (experiencias pasadas que distorsionan nuestra percepción y reacción a la información) junto con nosotros cuando leemos (¡y escribimos!) sobre estos temas.

La tecnología no está libre de humanos

Ninguna tecnología está libre de sus creadores. A pesar de nuestros más profundos deseos de ciencia ficción, los sistemas de Machine Learning (ML) e IA no son realmente independientes y autónomos… porque comienzan con nosotros.

Toda la tecnología es un eco de los deseos de quien la construyó.

Esto no se trata solo de ML/ IA; cualquier tecnología que pueda ver como independiente, es simplemente del tipo cuyo efecto dura más tiempo después de que ha presionado el botón.

No importa cuán complejo sea su eco, la tecnología siempre viene de personas y está diseñada por personas, lo que significa que no es más objetiva que lo que somos nosotros. Esto hace que la definición de sesgo algorítmico sea problemática.

El sesgo algorítmico se refiere a situaciones en las que un sistema informático refleja los valores implícitos de los seres humanos que lo crearon, pero ¿no toda tecnología refleja los valores implícitos de sus creadores? Si cree que los humanos pueden ser completamente imparciales, dele una mirada a esta lista…

Los datos y las matemáticas no son objetivas

Si está considerando la IA como su salvador de las debilidades humanas, vaya con cuidado.

Las matemáticas pueden oscurecer al elemento humano y dar una ilusión de objetividad.

Sin duda, los datos y las matemáticas pueden aumentar la cantidad de información que usa en la toma de decisiones y/o salvarlo de decisiones tontas tomadas con la cabeza caliente, sin embargo, la manera en que usted las use depende de únicamente de usted mismo.

Según Wikipedia: La objetividad es un concepto filosófico de ser verdadero, independientemente de la subjetividad individual causada por la percepción, las emociones o la imaginación.

Tragi-cómicamente, una capa de matemáticas y datos que se extiende por encima de una gran cantidad de elecciones totalmente subjetivas (¿A qué le debemos aplicar IA? ¿Vale la pena hacerlo? ¿En qué circunstancias? ¿Cómo debemos definir el éxito? ¿Qué tan bien se necesita que trabaje? etc…), oscurecen el elemento humano siempre presente y brindan una ilusión de objetividad.

Es mucho más llamativo decir: “La IA aprendió a hacer esta tarea por sí misma…” que decir la verdad.

Tengo claro que la ciencia ficción ¡vende! Es mucho más llamativo decir, “La IA aprendió a hacer esta tarea por sí misma…” que decir la verdad: “La gente usó una herramienta, con un nombre bien “cool”, para ayudarles a escribir el código. Se basaron en ejemplos que consideraron apropiados, encontraron algunos patrones en ellos y convirtieron esos patrones en instrucciones. Luego verificaron si les gustó lo que esas instrucciones hacen para ellos.”

La verdad está impregnada de subjetividad humana, tan solo miren todas las pequeñas elecciones a lo largo del camino que se dejan para que sean tomadas por la gente que dirige el proyecto. Envolverlas en una glamorosa capa de matemáticas no hace al núcleo menos consistente.

Cuando las matemáticas se aplican a un propósito, ese propósito está moldeado por las sensibilidades de nuestros tiempos.

Para empeorar las cosas, el punto central de la IA es permitirle explicar sus deseos a una computadora usando ejemplos (¡datos!) en lugar de instrucciones. ¿Qué ejemplos? Eso depende de lo que esté tratando de enseñarle a hacer a su sistema. Los conjuntos de datos son como libros de texto para que su estudiante aprenda. ¿Adivine qué? Los libros de texto tienen autores.

Los libros de texto reflejan los sesgos de sus autores. En la IA, al igual que los libros de texto, los conjuntos de datos tienen autores. Los datos se recopilan de acuerdo con las instrucciones de las personas.

Imagínese tratando de enseñarle a un estudiante humano a partir de un libro de texto escrito por un autor lleno de prejuicios. ¿Le sorprendería si el estudiante termina reflejando algunas de las mismas percepciones sesgadas? ¿De quién sería la culpa?

Lo sorprendente de la IA es cuán poco sesgada es. Si tuviera personalidad y opiniones propias, podría hacer frente a quienes la alimentan con ejemplos llenos de prejuicios. En cambio, los algoritmos ML/AI son simplemente herramientas para continuar los patrones que se les muestra. Muéstreles malos patrones y eso es en lo que harán eco. El sesgo en el sentido de los dos últimos puntos descritos no proviene de algoritmos ML/AI, sino de personas.

El sesgo no proviene de algoritmos de IA, proviene de personas.

Los algoritmos nunca piensan por sí mismos. De hecho, no piensan en absoluto (son herramientas), por lo que depende de nosotros los humanos de pensar por ellos.

¿Respondió “bananas”? ¿Por qué no mencionó el rollo de bolsas de plástico? ¿O el color de las bananas? Este ejemplo proviene del curso de formación de “AI Fairness” (Justicia en IA) de Google y demuestra que aunque las tres respuestas son técnicamente correctas, por alguna razón tenemos un sesgo para preferir una de ellas. No todas las personas compartirán ese sesgo; lo que percibimos y cómo respondemos está influenciado por nuestras normas. Si vive en un planeta donde todas las bananas son azules, puede responder “bananas amarillas” aquí. Si nunca antes había visto una banana, puede decir “estantes con cosas amarillas”. También correcto…

Cuando dije inicialmente que “el sesgo no proviene de los algoritmos de inteligencia artificial, sino de las personas”, algunas personas me escribieron para decirme que estaba equivocada porque el sesgo proviene de los datos. Bueno, ambos podemos tener la razón… porque la gente hace los datos.

Otras opciones de diseño, como los criterios de lanzamiento, datos de población y más , también dependen totalmente de los humanos tomadores de decisiones, por lo que es tan importante que tenga cuidado de elegir a los líderes de sus proyectos con inteligencia y capacitarlos bien.

Es más seguro pensar en la IA como una herramienta para escribir código.

Por favor, no caiga víctima de la moda de ciencia ficción. Ya sabe que el código está escrito por personas, por lo que refleja los valores implícitos de estas personas. Piense en la IA como una excelente herramienta para escribir código, porque eso es lo que es, así que los mismos principios se mantienen. Recuerde diseñar y probar toda la tecnología con cuidado, especialmente cuando se expande su uso.

Esta no es una excusa para comportarse como tonto.

Las máquinas son solo herramientas. Son extensiones de sus creadores quienes están sesgados, según la cruenta definición en el último punto de esta lista (“cuando nuestras experiencias pasadas distorsionan nuestra percepción y reacción a la información”).

Todos nosotros tenemos nuestras percepciones formadas por nuestra experiencia pasada, y todos somos producto de nuestras historias personales. En ese sentido, todos los humanos están sesgados.

Los argumentos filosóficos que invalidan la existencia de tecnología verdaderamente imparcial y objetiva, no le dan a nadie una excusa para comportarse como un idiota. En todo caso, el hecho de que no le pueda pasar la responsabilidad ética a una máquina, pone más responsabilidad en sus hombros, y no menos.

Claro que nuestras percepciones están moldeadas por la época en la que vivimos. Las ideas sociales de la virtud, la justicia, la bondad, la equidad y el honor no son las mismas hoy en día que las que fueron para las personas que vivieron hace unos pocos cientos de años. Y pueden seguir cambiando. Eso no hace que las ideas no sean importantes, sólo significa que no podemos pasar la responsabilidad a una computadora. Es responsabilidad de todos nosotros, juntos. Debemos esforzarnos por hacer nuestro mejor esfuerzo ético y tratar a todas las personas con los más altos estándares de respeto y cuidado.

El hecho de que no le pueda pasar la responsabilidad ética a una máquina pone más responsabilidad sobre sus hombros, no menos.

Equidad en la IA

Una vez que tome consciencia que es responsable de cómo utiliza sus herramientas y hacia dónde las dirige, esfuércese en darse cuenta de cómo sus elecciones afectan al resto de la humanidad. Por ejemplo, en qué aplicación utilizarlas es una opción que afecta a otras personas. Piénselo.

Usted es responsable de cómo usa sus herramientas y de hacia dónde las dirige.

Otra consideración es qué datos usar para la IA. Debería esperar un mejor rendimiento con ejemplos que sean similares a aquellos con los cuales aprendió su sistema. Si elige no utilizar datos de personas como yo, es más probable que su sistema cometa un error cuando aparezca yo como su usuario. Es su deber pensar en el daño que podría causar cuando eso suceda. Sí… se requiere esfuerzo e imaginación (y extensiva analítica).

¿No está familiarizado con la analítica para comparar distribuciones? Comience su viaje leyendo sobre histogramas como éste. Lo hice sobre el *output* (salidas) de un modelo de dos diferentes conjuntos de datos simulados.

Como mínimo, espero que tenga el sentido común de verificar si la distribución de su población de usuarios coincide con la distribución de sus datos. Por ejemplo, si el 100% de sus ejemplos de entrenamiento provienen de residentes de sólo un país, pero sus usuarios objetivo son globales… espere como resultado un desastre. Su sistema tratará a los residentes de ese país de forma menos torpe y equivocada que a todos los demás. ¿Le parece eso justo?

Si está dispuesto a llevar su análisis de imparcialidad al siguiente nivel, existen herramientas especializadas para ayudarle. Una de mis favoritas es la herramienta What-If.

Justo y consciente

A lo largo del camino hacia la IA, hay muchos aspectos de los cuales las personas son responsables. La mitad se relaciona con el esfuerzo por diseñar sistemas que sean buenos, equitativos, y justos para todos. La otra mitad está combatiendo su ignorancia sobre las consecuencias de sus elecciones a lo largo del camino. Piense. Con cuidado. (Y use la analítica para ayudarle a pensar aún más cuidadosamente).

Si desea luchar por imparcialidad, trabaje en combatir su propia ignorancia sobre las consecuencias de sus decisiones.

He escrito muchas palabras aquí… pude haberle dicho simplemente que la mayor parte de la investigación sobre el tema del sesgo y la imparcialidad en IA trata de asegurar que su sistema no tenga un efecto desproporcionado en algunos grupos de usuarios, relativos a otros. El enfoque principal está en las verificaciones de la distribución y la analítica. La razón por la que escribí tanto es que quiero que lo haga aún mejor. Las verificaciones de distribución automatizadas sólo llegan hasta un límite. Nadie conoce un sistema mejor que sus creadores, por lo que sí está creando uno, tómese el tiempo para pensar.

Piense en cómo sus acciones afectarán a las personas y haga lo mejor para darles una voz que lo guíe a través de sus puntos ciegos.

Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.