Un sistema para engancharlos a todos: el sistema de recompensa variable (I)

7 min readJun 14, 2018

¿Por qué las redes sociales son tan adictivas?

¿Cuál es la razón por la que videojuegos gratuitos como Candy Crush o Clash Royale generan tantos beneficios?

¿Qué hay detrás del reciente éxito de las apuestas deportivas?

Todas estas preguntas tienen una única respuesta: el sistema de recompensa variable. En esta serie de artículos explicaré cómo las distintas empresas digitales se han aprovechado de él para crecer y triunfar. Pero antes de llegar hasta allí necesitamos un poco de contexto. Hoy empezaré por explicar el descubrimiento del sistema de recompensa variable, qué es y porqué funciona.

Los experimentos de Skinner

Durante los años 50 el psicólogo B.F. Skinner estaba centrado en entender el comportamiento de los animales. En sus investigaciones intentaba averiguar cómo les afectaban las recompensas y como variaban sus reacciones si modificabas la frecuencia con la que se las ofrecías. Para conseguir un comportamiento concreto en un animal, ¿debías recompensarlo cada vez que lo hacía? ¿O sólo algunas de las veces?

Su experimento más conocido es la llamada “Caja de Skinner”. Básicamente se trata de una caja con una palanca que al pulsarla ofrece una recompensa en forma de comida y algún tipo de señal que indica cuando accionar la palanca. Dentro de la caja Skinner colocaba un animal (normalmente una rata, una paloma o un mono) y anotaba sus respuestas ante diferentes formas de recompensa.

Una representación de una Caja de Skinner

Primero probó a ofrecer comida cada vez que se pulsaba la palanca y descubrió que los animales lo hacían hasta saciarse y después dejaban de hacerlo. En vocabulario psicológico, el comportamiento “se extinguía rápido y no perduraba”. Skinner experimentó después con dos programas de recompensa diferentes: ofrecer comida cada determinado número de pulsaciones de palanca (recompensa de ratio fijo) o cada determinado paso de tiempo pulsando la palanca (recompensa de intervalo fijo). En estos casos los animales pulsaban más veces la palanca y durante más tiempo, pero aun así el comportamiento no duraba mucho.

Finalmente decidió probar a recompensar a los animales de forma variable, unas veces sí y otras no, sin un patrón determinado. El resultado fue sorprendente: los animales no paraban de pulsar la palanca. Este programa de recompensa conseguía que el comportamiento se repitiese el mayor número de veces y durase la mayor cantidad de tiempo. Incluso cuando pulsar la palanca ya no otorgaba recompensas, los animales seguían haciéndolo con la esperanza de que volviesen. Utilizando este sistema el comportamiento se volvía “muy difícil de extinguir”. Skinner bautizó a este programa con el nombre de “sistema de recompensa variable”.

Ahora ya sabemos que los animales se vuelven adictos a un sistema que les recompensa de forma variable, pero, ¿Y los humanos? ¿También nos volvemos adictos a este sistema? Hay una comprobación muy sencilla a esta pregunta, que puedes observar en las “cajas de Skinner” que hay en cada bar y casino, las máquinas tragaperras. Si las analizas te darás cuenta de que su funcionamiento es idéntico: luces que emiten la señal de cuando actuar, una palanca para intentar conseguir la recompensa y un premio emitido de forma variable.

A pesar de que todo el mundo sabe que estas máquinas están diseñadas para que el jugador pierda dinero, la gente sigue utilizándolas desde hace decenas de años. De hecho, mucha gente tiene serios problemas de adicción a ellas. ¿Pero cuál es la razón por la que el sistema de recompensa variable nos engancha? Para comprenderlo tenemos que adentrarnos en nuestra biología y explorar el funcionamiento de una sustancia llamada “dopamina”.

Mito y realidad de la dopamina

La historia de la dopamina es confusa y aún hoy su funcionamiento no está del todo claro. Empecemos por el principio. En 1958 los médicos Arvid Carlsson y Nils-Ake Hillarp demuestran que la dopamina es un importante neurotransmisor (una molécula que transmite información desde una neurona a otra) y estudios posteriores la relacionan con diferentes funciones críticas del cerebro como pensar, moverse, dormir, estar atento o estar motivado.

A partir de los años 70 la comunidad científica empieza a obsesionarse con este neurotransmisor y este interés llega al público general que, debido a que los estudios de la época estaban muy orientados a su efecto en las adicciones a las drogas, la llama popularmente “la molécula de la adicción” o la “molécula del placer”. Pero la realidad es mucho más compleja. Hoy día sabemos que la dopamina no es el causante principal del placer, es decir, que la cantidad de placer que experimenta una persona no es igual a la cantidad de dopamina que segrega. Lo que sí sabemos es que es muy importante en los sistemas de recompensa. ¿Pero cuál es su rol exactamente?

Aquí es donde aparecen los estudios de Robert Sapolsky, profesor de biología y neurología de Standford. Sapolsky investiga los efectos de la dopamina en el cerebro mediante experimentos similares a los de Skinner. Él utiliza un mono entrenado para que al ver una señal, pulse 10 veces un botón para obtener una recompensa en forma de comida. Mientras esto sucede, el profesor está midiendo los niveles de dopamina en el cerebro del animal. El gráfico resultante es éste:

Sapolsky observa que sorprendentemente y al contrario de lo que muchos pensaban, la dopamina se libera en el momento en el que el mono observa la señal, no cuando recibe la recompensa. Se demuestra así que la dopamina actúa sobre la anticipación de la recompensa: es lo que lleva al mono a pulsar el botón hasta que llega la comida. De manera similar ocurre en la naturaleza cuando un león huele una presa, cuando un mono observa fruta en lo alto de un árbol o un elefante sediento escucha el sonido de un río. La explicación biológica es que nuestro cuerpo libera energía y nos hace sentir bien para afrontar un esfuerzo porque cree que la recompensa está cerca.

De hecho, Sapolsky demostró que si por medio de la ciencia consigues bloquear la dopamina en los monos, estos no llevarán a cabo la tarea. La dopamina es lo que permite la conducta hacia objetivos, sin ella no hay comportamiento ni recompensa. Pero sus descubrimientos no terminan aquí. En la segunda parte del experimento el mono solo recibía comida un 50% de las veces que terminaba la tarea y al medir de nuevo los niveles de dopamina y compararlos con el caso anterior obtuvieron este gráfico:

Como puedes ver, en este caso la dopamina se dispara hasta más del doble. ¿Qué está sucediendo? Pues que en vez de un sistema de recompensa predecible, están aplicando un sistema de recompensa variable. En el primer caso el mono descubre que va a conseguir la recompensa seguro, por lo que su organismo genera menos dopamina ya que sabe que en el momento en el que lo necesite obtendrá comida. Pero en el segundo caso la incertidumbre empuja al mono a repetir una y otra vez la tarea, porque cree que en algún momento la comida puede terminarse. El mono se encuentra ante su máquina tragaperras particular y la dopamina lo mantiene enganchado a ella.

Existe un tercer y un cuarto experimento, donde el mono obtiene la recompensa un 25% y un 75% de las veces respectivamente. Éste es el gráfico comparativo:

Como puedes ver en estos casos la dopamina es más alta que en la recompensa segura, pero más baja que en el caso de 50%. Esto nos demuestra que la clave para aumentar la dopamina e incentivar el comportamiento es la incertidumbre. En el caso del 25% y el 75%, la obtención de la recompensa es más predecible, lo que lleva a generar menos dopamina. Cuanto más impredecible es la obtención de la recompensa, más dopamina se generará y más tiempo pasará el mono pulsando el botón. Y obviamente obtener la recompensa el 50% de las veces es la situación menos predecible.

Los estudios de Sapolsky aportan la explicación biológica a las observaciones de Skinner sobre los sistemas de recompensa variable. La segregación de dopamina ante la incertidumbre es la culpable de que estos sistemas funcionen tan bien para generar comportamientos que perduren en el tiempo, ya que nuestro cerebro no deja de generar este neurotransmisor en grandes cantidades ante el miedo a que la recompensa se termine.

Aquí termina la primera parte. En la segunda hablaré sobre cómo las empresas digitales son capaces de generar “loops” de dopamina para mantenernos enganchados a sus productos. Y sí, responderé a porqué los videojuegos, las apuestas deportivas y las redes sociales tienen tanto éxito y que mecanismos utilizan para aumentar constantemente sus ingresos y sus usuarios.

> Puedes seguirme en Twitter: https://twitter.com/Hugo_saez
> O suscribirte a mi newsletter semanal en: https://mindtricks.substack.com/

Fuentes:

Nir Eyal — Hooked: How to Build Habit-Forming Products

Conferencia de Robert Sapolsky: Are Humans Just Another Primate?

https://www.neuroscientificallychallenged.com/blog/sorting-out-dopamines-role-in-reward

Un sistema para engancharlos a todos: el sistema de recompensa variable (I)

Written by Hugo Sáez