ПОЧЕМУ ПРЯНИК ЭФФЕКТИВНЕЕ КНУТА?

Sasha Dobrego
pochemuzachemkak
Published in
5 min readMar 22, 2021

Если вам нужно мотивировать сотрудника, вы, скорее всего, выберете одну из двух стратегий. Первая — это пообещать поощрение, например, прибавку к зарплате или оплачиваемый отпуск. Вторая — это пообещать боль, например, негативный отзыв или понижение в должности. В первом случае мы говорим о положительном подкреплении, а во втором — об отрицательном. Обе стратегии действительно работают, но не всегда ясно, какая из них работает лучше. Что мы должны использовать в большей мере, пряник или кнут?

В одной из больниц Нью-Йорка было проведено интересное исследование. Целью было увеличить частоту мытья рук медицинским персоналом перед входом к пациенту. Медицинский персонал постоянно уведомляется об этом, и рядом с дозаторами дезинфицирующего геля часто помещают предупреждающие знаки о последствиях необработанных рук. Тем не менее, камеры, установленные для наблюдения за каждой раковиной и дозатором, показали, что только 10% медицинского персонала дезинфицировали руки до и после входа в палату пациента. И это несмотря на то, что сотрудники знали, что их записывают. Тогда ученые придумали следующее: в коридоре подразделения установили электронную доску, которая давала сотрудникам мгновенную обратную связь. Каждый раз, когда они мыли руки, на доске появлялось положительное сообщение (например, «Отличная работа!»), и оценка гигиены рук текущей смены повышалась. Показатели соблюдения требований резко выросли и достигли почти 90% в течение четырех недель.

Почему эта обратная связь сработала так хорошо?

Наш мир устроен так, что для получения чего-то приятного (черничного пирога, стакана воды или продвижения по службе), нам обычно нужно действовать. Поэтому в процессе эволюции мозг человека перестроился на положительное подкрепление к действию: он дает сигнал “да” каждый раз, когда мы ожидаем что-то хорошее. Этот сигнал запускается дофаминергическими нейронами в глубине среднего мозга, которые перемещаются вверх через мозг к моторной коре, которая, в свою очередь, контролирует действие.

Дофамин перемещается по синим стрелкам

В случае больницы, вместо угрозы распространения болезни (которая использовалась для мотивации ранее), исследователи выбрали позитивную стратегию. Каждый раз, когда сотрудник мыл руки, он сразу же получал положительный отзыв. В этот момент положительная обратная связь запускала сигнал вознаграждения в мозге и повышала вероятность повторения этого действия в будущем.

ЗАЧЕМ ВООБЩЕ НУЖЕН КНУТ?

Когда мы говорим про мотивацию к действию, награды действительно более эффективны, чем наказания. Но иногда важно мотивировать не к действию, а к бездействию (например, отговаривая людей делиться конфиденциальной информацией) — в таком случае все наоборот и наказания более эффективны.

Причины этому — мир, в котором мы живем, и то, как наш мозг подстраивается под него.

Чтобы получить что-то приятное, нам нужно действовать. А чтобы избежать плохих вещей (яда, плохого вина, ненадежных людей), нам обычно просто нужно оставаться на месте. Поэтому мозг развивался так, чтобы приспособиться к среде, в которой лучший способ не пострадать — это вообще избегать действий (конечно, не всегда, но довольно часто). Когда мы ожидаем чего-то плохого, мозг подает сигнал “нет”. Эти сигналы также исходят из средней части мозга и продвигаются вверх в кору, но в отличие от сигналов “да”, они тормозят действие, иногда заставляя нас вообще замереть. Это проявляется даже в ситуациях, когда реальная опасность неизбежна. Вспомните, как вы в последний раз реагировали на опасность или на сильный стресс? Возможно, на какое-то время застывали как вкопанные? Это и есть сигнал “нет” (реакция «замри»), который часто предшествует реакции «бей или беги».

Как работает “бей”, “беги”, “замри”

Это разделение частично объясняет, почему электронная положительная обратная связь более эффективно мотивировала медицинский персонал мыть руки, чем угроза болезни себе и другим. В данном случае целью было действие — “мыть руки”, а значит нужно было вызвать сигнал “да” позитивным подкреплением. Если бы целью было “не мыть руки ни в коем случае”, лучшим вариантом был бы сигнал “нет” (негативное подкрепление), например, угроза увольнения или отстранения от работы.

КАК ЭТО РАБОТАЕТ У МАШИН?

Подход кнута и пряника используется и при обучении искусственного интеллекта (ИИ). Чтобы формализовать позитивные и негативные подкрепления в математическом алгоритме, вводят понятия агента, среды и награды (“обучение с подкреплением” или “Reinforcement Learning”). Задача агента — научиться взаимодействовать со средой так, чтобы награда за его действие была максимальной (как и задача человека — взаимодействие с миром с максимальной для себя выгодой). Получение максимальной награды значит, что новые знания и опыт успешно освоены.

Соотношение агента, среды и награды (и видео https://www.youtube.com/watch?v=2xATEwcRpy8)

При этом агент учится самостоятельно, и задача разработчиков таких алгоритмов сводится к моделированию среды и установки награды. Например, для игры в шахматы среда — это шахматная доска с установленными правилами движения фигур, агент — игрок, замененный алгоритмом, а награда — выигрыш в партии.

Алгоритмов обучения с подкреплением довольного много, но самые успешные из них основаны на копировании процессов обучения у человека.

  1. Имитация любопытства. Вам наверняка приходилось слышать нечто подобное: “Отрицательный опыт — тоже опыт” или “На ошибках учишься”. Обычно это значит, что для достижения цели (награды) мы пробуем разные подходы. Можно сказать, что разнообразие наших подходов зависит от нашего любопытства. Чтобы ввести в алгоритм такое эфемерное понятие, используют так называемую ставку дисконтирования, которая принимает значения от 0 до 1. Чем ближе число к нулю, тем больше подходов в процессе обучения будет использовать алгоритм для достижения награды, но тем выше вероятность, что он её не достигнет. Если же число близко к 1, то алгоритм ищет максимально короткий путь, ведущий к успеху, отметая те знания, которые получает с неудачных попыток. Так что обычно, ставка дисконтирования — это компромисс между двумя крайностями.
  2. Имитация воображения. А что, если бы не агент взаимодействовал со средой, а она сама менялась в результате его действий? Звучит странно, но именно так работает то, что мы называем воображением. Представьте, вы легкоатлет, который прокручивает акробатический элемент у себя в голове, прежде чем приступить к его выполнению. Такая форма тоже считается обучением. Задача разработчиков таких алгоритмов сводится к симуляции ответа среды на действия агента. Кстати, частный случай нашего воображения — это сны. Одна из моделей таких алгоритмов даже получила название Dream World.
  3. Имитация критики. Часто после получения нового опыта, знаний или достижения целей, мы, оглядываясь назад, говорим себе: “можно было лучше/быстрее/точнее”. В этот момент мы используем ту часть сознания, которую называют внутренним критиком. Алгоритмы, имитирующие такое поведение, сегодня добиваются самых лучших результатов. В то время как одна часть алгоритма, отвечающая за действия агента, добивается награды, вторая указывает на ошибки в процессе обучения и после каждого вознаграждения “просит” повторить процесс заново. Получается замкнутый самообучающийся цикл, способность к совершенствованию которого ограничена только знаниями, извлекаемыми из среды.
Искусственный интеллект учится парковаться!

Обучение с подкреплением пока имеет лишь один существенный недостаток — память. Из-за этого ни одна из моделей не в состоянии научиться решать слишком разные задачи. Невозможно обучить алгоритм одновременно езде на велосипеде, распознаванию окружающих его объектов и обдумывании планов на вечер — то, с чем наш мозг справляется без проблем.

Take-home message

  • Чтобы мотивировать к действию, хвалите.
  • Чтобы мотивировать к бездействию, пригрозите.

И ниже любимое: примеры стратегий мотивации в ваших любимых сериалах.

--

--