El Big Data se convertirá en un oráculo que no vamos a entender (pero que vamos a obedecer)

Los sistemas informáticos actualmente basan sus decisiones en reglas que han sido programadas de forma explícita y deben seguir. Así, cuando una decisión va mal, como es inevitable de vez en cuando, uno puede volver hacia atrás y averiguar por qué la computadora hizo lo que hizo.

Por ejemplo, se puede investigar con preguntas como: “¿Por qué el piloto automático del avión giró 5 grados hacia la derecha cuando un sensor externo detecto un cambio de humedad?”.

El código (programa) que ejecuta una computadora puede ser inspeccionado, y las personas que saben cómo interpretarlo pueden rastrear y comprender las bases de sus decisiones, sin importar su complejidad.

En el análisis de grandes cantidades de datos (Big Data), sin embargo, esta trazabilidad sobre las decisiones de la máquina será mucho más difícil. 
Las bases de las predicciones de un algoritmo que trabaje sobre enormes cantidades de datos puede, a menudo, ser demasiado complicada de entender para el ser humano promedio. ;)

Las computadoras se programan para seguir una serie de instrucciones de forma explícita, como en el primer programa automático de traducción del ruso al inglés que IBM programó en 1954, en el que un ser humano podría comprender fácilmente por qué el programa había sustituido una palabra por otra.

Pero hoy en día el traductor de Google incorpora miles de millones de páginas de traducciones realizadas por humanos y máquinas en sus juicios algorítmicos para determinar si la palabra “luz” debe ser traducida al francés como “Lumière” o como “léger” (es decir, si la palabra se refiere al brillo o al peso). En casos como este, la cantidad de datos en juego y los cálculos estadísticos hacen imposible para un ser humano rastrear los motivos exactos de la elección de palabras por parte del programa.

Es por eso que tenemos que empezar a entender que el Big Data opera a una escala que va más allá de nuestra comprensión ordinaria.

Por ejemplo, Google identifico una correlación entre un puñado de términos de búsqueda y la aparición de brotes de gripe en ciertas zonas de los Estados Unidos. Esta correlación fue el resultado de la prueba de 450 millones de algoritmos matemáticos y datos acumulados durante años.

Por el contrario, una analista de la Con-Edison, la empresa que abastece de electricidad a parte de la ciudad de New York, corrió un programa con 106 algoritmos que determinó cuáles bocas de inspección situadas en distintas calles de la “Gran Manzana” estaban más expuestas a generar un incendio por sobrecarga eléctrica u otros motivos. Esta analista puede explicar a los gerentes de la Con-Edison la razón por la cual su programa priorizó unas bocas sobre otras.

Esta condición de un sistema informático de poder explicarse a sí mismo, y de cómo y por qué toma sus decisiones en los círculos de inteligencia artificial se sintetiza con una palabra en inglés “explainability”, y a medida que nos acercamos al Big Data la “explainability” de un sistema cae en proporción directa a la cantidad de datos que analiza.

Y volviendo al caso de la analista de Con-Edison ¿Qué pasaría si en lugar de 106 algoritmos se usaran 601, de los cuales la gran mayoría tuviéran un índice bajo de influencia en la salida pero que mejorarán notablemente la predicción de cuáles bocas de inspección son más peligrosas? Ahora sería mucho más difícil explicar cuál es la razón por la cual el programa tomó la decisión de cuáles bocas deben ser remodeladas para minimizar el riesgo de incendio.

Entonces… ¿Cómo convencer ahora a los gerentes para que tomen una decisión sobre un presupuesto limitado, solo con el apoyo de un sistema informático que no se sabe con exactitud cómo generó sus respuestas?

Con estos escenarios en mente se puede ver el riesgo que implica trabajar con las predicciones que se generan a partir del Big Data. Este tipo de predicciones se convertirán en cajas negras que no ofrecerán ninguna rendición de cuentas sobre la trazabilidad o la confianza de cómo generaron sus respuestas. 
 
 Para evitar esta pérdida de confianza, las predicciones o resultados obtenidos a partir del Big Data requerirán una vigilancia y transparencia, que a su vez necesitará de nuevos tipos de instituciones y conocimientos.

Estos nuevos jugadores proporcionarán apoyo en áreas donde la sociedad tiene que examinar las predicciones obtenidas del Big Data, y a la vez permitir a las personas que se sienten agraviadas por esos resultados obtener una reparación (recuerden Minority Report).

El procesamiento del Big data requerirá un nuevo grupo de personas para asumir este papel. Tal vez este grupo será llamado “los algorimistas” (risas), una suerte de alquimistas de datos.

Estos nuevos profesionales serían expertos en áreas de ciencias de la computación, matemáticas y estadísticas. Actuarían como revisores de los análisis y predicciones generados por el Big Data, y tomarían un voto de imparcialidad y confidencialidad, así como lo hacen ahora los contadores y otros profesionales. Evaluarían la selección de las fuentes de datos, la elección de las herramientas de análisis y predicción, incluyendo los algoritmos, modelos y la interpretación de los resultados. En el caso de una disputa, tendrían acceso a los programas, métodos estadísticos, y conjuntos de datos que produjeron una decisión determinada.

El problema es que todavía nadie ha tomado la posta y dado que los resultados que se obtienen del análisis de las grandes cantidades de datos son “científicos” y “matemáticos” nadie se sienta a discutirlos o tan siquiera ponerlos en duda.

Hasta la aparición de los “algorimistas” seremos esclavos de las predicciones y decisiones que se tomen a partir del Big Data, que se convertirá en un oráculo infalible que en muchos casos podría fallar.

“Shit happens” dicen los que hablan la lengua de William Shakespeare.