Machine Learning no es solo máquinas

Andres David Blandon Restrepo
Bancolombia Tech
Published in
7 min readMay 12, 2023

Dejemos los tecnicismos y hablemos de nuestra responsabilidad al crear sistemas de Machine Learning.

Un sistema de machine learning no es juzgado en un tribunal y condenado por sus errores… Un sistema de machine learning improbablemente podrá predecir la forma en que será construido o las consecuencias que tendrá su uso… Por lo tanto, es nuestra responsabilidad garantizar que los modelos de machine learning se construyan y se utilicen de manera segura y confiable, respetando los derechos y la privacidad de los usuarios; buscando siempre minimizar los posibles sesgos o discriminaciones, y asegurando que la creación de los modelos ofrezca a los usuarios transparencia sobre sus predicciones.

Hablemos de que es un sesgo

Los sesgos están presentes en nuestro día a día, y estos pueden filtrarse en nuestros sistemas de machine learning si no tenemos cuidado. Un ejemplo de sesgo que históricamente ha estado presente en nuestra sociedad, es la relación de ciertas profesiones con un género en específico: “Doctor-Hombre”, “Enfermera-Mujer”.

En este caso, si decidiéramos construir un modelo de machine learning para predecir la profesión que más se ajustaría a un grupo de estudiantes, y tomáramos como referencia los datos históricos de estas dos profesiones, además, usamos la variable de genero al entrenar el modelo; tendremos como resultado un sistema con sesgos, donde se generalizaría de la misma forma que lo hemos hecho históricamente. La profesión de medicina seguiría siendo mayormente representada por hombres y subrepresentada por mujeres, y la profesión de enfermería seguirían siendo mayormente representada por mujeres y subrepresentada por hombres.

Es por este tipo de escenarios que debemos ser muy cuidadosos al momento de diseñar y construir nuestros sistemas, y buscar que sean imparciales en sus predicciones.

¿Cuáles son las principales fuentes de sesgos de los modelos de machine learning?

Los sesgos pueden filtrarse en cualquiera de las fases del ciclo de vida de los modelos de machine learning. Es por esto que, TODOS los participantes del proceso son responsables de identificar los posibles sesgos y evitar que se filtren y afecten las predicciones de los modelos.

Las siguientes son algunas posibles formas donde se pueden filtrar sesgos de grupos subrepresentados en los modelos.

· La definición del objetivo del modelo

Este es el punto de partida de una solución de machine learning, aquí es donde se debe velar porque el objetivo del modelo sea justo con todos los usuarios, que no tenga sesgos hacia el grupo mayoritario de usuarios, y que los usuarios que tengan una subrepresentación sobre la población total no tengan discriminaciones. Un ejemplo de una mala definición de objetivo fue el sistema de calificación automatizado que implementó el Reino Unido para predecir las notas que los estudiantes obtendrían en el examen de “A Levels” durante la pandemia.

A través de un sistema de machine learning se buscaba predecir las notas que los estudiantes obtendrían en los exámenes y el principal objetivo del sistema fue “mantener los altos estándares de admisión de la universidad”. Este objetivo gran polémica en Reino Unido, ya que presentaba sesgos donde los estudiantes de instituciones prestigiosas tenían muchas más probabilidades de obtener mejores notas y los estudiantes de instituciones pequeñas y quizás no tan populares se verían afectados por el objetivo definido.

· El etiquetado de los datos

Las etiquetas de datos pueden pertenecer a dos categorías: etiquetas manuales (subjetivas) o etiquetas naturales (objetivas). Las etiquetas manuales pueden presentar un mayor riesgo de sesgos. Estas etiquetas están definidas por humanos, en la mayoría de los casos, por expertos en la materia (Subject matter experts — SME), lo que puede ocasionar una filtración de sesgos por parte de los etiquetadores. En este punto también hay que mencionar que, si los etiquetadores representan un grupo selecto de una población especifica, el modelo generalizará sus predicciones basado en la percepción de dicho grupo.

· La ingeniería de características

Las características de los modelos de machine learning son variables independientes que actúan como una entrada en su sistema y los modelos usan tales características para hacer las predicciones.

Los modelos de machine learning no deben utilizar características que contengan información sensible (Ej. Etnicidad, genero, religión). Incluso cuando este tipo de información no es usada directamente en la fase de entrenamiento, es posible crear sesgos si se utilizan características altamente correlacionadas con estas características sensibles. Por ejemplo, características como la dirección postal, diplomas de colegios pueden estar altamente correlacionadas con una población étnica o religiosa en particular, y el uso de estas características en el entrenamiento del modelo puede ocasionar discriminaciones.

· Los datos de entrenamiento

La pregunta más importante que los científicos de datos deben evaluar al momento de seleccionar los datos con que entrenarán los modelos es: ¿Los datos usados en la fase de desarrollo son suficientemente representativos de los datos que el modelo manejará en producción? En caso de que existan discrepancias entre los datos de entrenamiento y los datos del mundo real habrá sesgos hacia los datos usados durante la fase de entrenamiento.

Por ejemplo, en el sector de la salud las tomografías pueden variar en su resolución dependiendo del fabricante del escáner. El entrenar un modelo de machine learning con varías imágenes que no estén estandarizadas en su resolución puede producir sesgos hacia los tomógrafos que tengan una mayor calidad de imagen o que tengan una mayor representación en el mercado.

· La evaluación del modelo

Es importante evaluar el modelo de forma holística y tener granularidad del rendimiento del modelo sobre diferentes subgrupos de usuarios. Durante la evaluación también es necesario identificar y documentar el peso de las variables sobre las predicciones, y así poder ofrecer a nuestros usuarios la transparencia del modelo. Si solo son usadas métricas como la exactitud (Accuracy) para evaluar el modelo, se puede incurrir en sesgos, especialmente en datos altamente desequilibrados.

¿Qué puede ayudar a mitigar los sesgos de los modelos de machine learning?

Evitar sesgos en los modelos es una tarea compleja, sin embargo, es indispensable que las organizaciones establezcan procesos sistemáticos para construir sus sistemas de machine learning de una forma responsable.

· Evaluación concreta del objetivo del modelo para la equidad y la inclusión:

La búsqueda de un mayor margen de utilidad o de un mayor impacto a los consumidores puede ser el punto de partida a la generación de sesgos. Estos objetivos si no son evaluados de una forma imparcial pueden afectar la equidad e inclusión de alguno de los grupos de usuarios, ocasionando así una discriminación o injusticias sobre una población no tan representativa de usuarios.

La tensión inherente entre los diferentes stakeholders durante el desarrollo de un proyecto de machine learning debe lograr un equilibrio entre hacer el trabajo de manera eficiente, y asegurar la equidad sobre las predicciones de los modelos. Este equilibrio se puede encontrar evaluando de forma concreta el objetivo específico de cada modelo y evaluando el nivel de criticidad de la afectación que puede generar las decisiones tomadas con base en las predicciones del modelo sobre los usuarios o la sociedad.

· Evaluación de riesgos de modelos:

La evaluación de riegos de los modelos puede ayudar a que modelos defectuosos o con un nivel crítico de sesgos llegue a ser desplegados en producción. Para esto se puede tener un punto de control previo al despliegue, donde se evalúe el riesgo de un modelo por un equipo imparcial y diferente al equipo que construyó el modelo. Utilizando como línea base las métricas evaluadas para la selección del modelo y el rendimiento de este sobre los datos de pruebas.

Dentro de las variables que se pueden utilizar para medir y evaluar el riego del modelo están las siguientes:

• Tamaño de la audiencia que utilizará el modelo

• La vida útil del modelo y sus resultados

• El impacto de los resultados del modelo sobre los sus usuarios

Es recomendable que al diseñar métricas para entrenar y evaluar un modelo no solo se incluyan métricas globales, sino también métricas para examinar el rendimiento en diferentes subgrupos. Por ejemplo, la tasa de falsos positivos y la tasa de falsos negativos por subgrupo pueden ayudar a comprender qué grupos experimentan un desempeño desproporcionadamente peor o mejor.

· Evaluación de experiencia de usuario:

Es importante recordar que la naturaleza de los sistemas de machine learning es probabilística y no determinística. Lo que quiere decir que una predicción con los mismos parámetros no siempre dará la misma respuesta, sin embargo, las predicciones de un sistema de machine learning son en su mayoría “correctas” y es posible generalizar sus resultados.

Esta particularidad puede afectar la experiencia de usuario, lo que lleva a una compleja situación en la que en algunas ocasiones la mejor alternativa es asegurar “consistencia” en la experiencia de usuarios y en otras ocasiones buscamos combatir sesgos sobre las predicciones “mayormente correctas” que amplifican los resultados en un feedback loop.

Evaluar la experiencia del usuario en escenarios del mundo real puede ayudar a mitigar sesgos críticos. Para esto podemos tener en cuenta las diferentes métricas definidas al inicio del proyecto, evaluar si las predicciones del modelo se alinean con las oportunidades de mejora que ofrece el modelo a los usuarios, y buscar que estas sobrepasan las afectaciones que el modelo pudiese ocasionar a los usuarios.

Todo lo anterior está cubierto bajo la práctica de IA responsable (Responsable AI). Una práctica emergente que consiste en diseñar, desarrollar y desplegar sistemas de inteligencia artificial, construidos con “buena intención” y suficiente “conciencia” para empoderar los usuarios, generar confianza, asegurar justicia, y generar un impacto positivo para la sociedad.

¡Al final, nosotros, los seres humanos, somos quien construimos los sistemas de inteligencia artificial y debemos ser responsables de su construcción y uso!

--

--