Simulation of Incentive Design:
어떤 보상 시스템이 가장 적합한가?
Part 2

Luke Park

Published in

DECON

7 min readFeb 2, 2019

Simulation of Incentive Design

Part 0: Why Simulation?
Part 1: 보상 시스템 설계 문제 및 시뮬레이션 환경 소개
Part 2: 히트맵을 통한 시뮬레이션 결과 오버뷰
Part 3: 시뮬레이션 결과 분석

시뮬레이션 결과 분석

이전 글을 통해 보상 시스템 문제를 제기하고, 시뮬레이션을 통해 무엇을 해결하고자 하였는지를 보였습니다. 또한, 시뮬레이션을 위한 설정값과 에이전트 및 환경의 함수를 소개드렸습니다. 이번 글에서는 본격적으로 시뮬레이션 결과에 대해 분석하고자 합니다.

에이전트의 학습과 수렴

각 이득 분배 방법론에 대한 상세한 분석에 앞서, 히트맵(heatmap)을 통해 전반적인 양상을 파악해보겠습니다. 이는 에이전트의 학습 과정을 시각화한 것으로, 설정값에 따라 다른 방향으로 수렴함을 확인할 수 있습니다.

다음 소개드릴 히트맵은 각 에이전트의 행동에 대한 확률을 표시한 것입니다.

x축은 0부터 99까지 100명의 에이전트를 표시하고 있으며, 자산 보유량이 많은 순서대로 정렬되어 있습니다.
y축은 0부터 9까지의 정수 값을 가지는 행동이며, 0은 리뷰를 쓰지 않음을, 1은 리뷰를 작성하나 노력을 1만큼만 투자함을, 9는 가장 많은 노력을 투자하여 리뷰를 작성함을 의미합니다.
각 셀(cell)의 색상은 해당 에이전트의 해당 행동의 확률을 의미하며, 0에서 1사이의 값을 가집니다. 한 에이전트의 각 행동의 확률을 모두 더하면 1이 됩니다. 색상이 진할수록 0에 가까우며, 밝을수록 1에 가깝습니다.

위 GIF에서의 시간축은 에피소드의 경과를 의미합니다. 색상이 변화하지 않음을 통해, 충분한 에피소드가 진행된 후에는 각 에이전트가 특정한 양상으로 수렴함을 보일 수 있습니다.

이하의 분석에서는 충분한 에피소드가 지나 수렴한 후의 상황을 기준으로 합니다.

Proportional의 결과

에이전트는 다음과 같이 학습하고 수렴하였습니다.

에이전트의 자산 보유량에 따라 노력의 강도(행동)가 달라짐을 알 수 있는데, 이는 자산의 보유 비율에 따라 cost 함수의 반환값이 달라지기 때문입니다. 즉, 사전 보유 자산이 가장 많은 에이전트 0번의 경우 액션 0의 확률이 가장 높으므로 리뷰를 작성하지 않을 것임을 알 수 있습니다. 반면 보유 자산이 없을수록 글을 작성할 것임을 알 수 있고, 또한 미세한 차이지만 보다 노력할 확률이 커짐이 보입니다.

Exponential의 결과

한편 이득 분배 방법론을 proportional이 아닌 exponential로 변경했을 경우의 히트맵은 위와 같습니다.

두 히트맵을 비교해보면 유의미한 차이점이 보입니다. Exponential한 경우가 보다 노력을 많이 투자하고 있습니다. 이는 투자한 노력에 따라 얻는 이득이 proportional 대비 상대적으로 크게 차이나기 때문입니다(오른쪽 아래의 색상이 밝음에 주목하십시오).

Uniform의 결과

한편 uniform하게 보상을 줄 경우 극단적인 양상으로 수렴함을 알 수 있습니다. 자산 보유량에 따라 다소의 차이는 있으나, 모든 에이전트는 노력을 1만큼 투자하고 있습니다.

이는 투자한 노력에 따라 받는 보상에 차이가 없으므로, 리뷰를 쓰긴 쓰지만 최소한의 노력만을 투자하기 때문입니다. 자산 보유량이 많은 에이전트의 참여를 유도했다는 의의는 있으나 리뷰의 퀄리티를 보장하지는 못합니다.

보상 풀과 에이전트 수의 변경

에이전트들에게 주어지는 보상은 보상 풀에서 분배됩니다. 이 보상 풀은 활동을 장려하고 싶은 주체들(리뷰가 필요한 레스토랑, 호텔 등)이 제공하는데, 이를 조정함으로써 에이전트들의 참여를 원하는 방향으로 유도할 수 있을지가 궁금합니다. 가령 리뷰의 퀄리티를 어느 정도 보장할 수 있을까요?

만일 그렇다면 적절한 보상 풀을 제공함이 에이전트와 주체 모두에게 바람직한 일일 것입니다. 보상 풀을 달리 하였을 경우 에이전트가 어떻게 학습하고 수렴할 것인지를 히트맵을 통해 살펴보겠습니다.

보상 풀을 두 배로 키웠을 경우

위는 보상풀을 두 배로 키웠을 경우의 히트맵입니다. 오른쪽 아래의 색상이 보다 밝아졌음에 주목하십시오. 노력할 확률이 현저히 커졌음을 알 수 있습니다.

보상풀을 키우면 리뷰 작성자가 받을 이득의 분포가 확대됩니다. 따라서 리뷰 작성에 더 많은 노력을 투자할수록 더 많은 이득을 얻을 수 있습니다. 물론 비용 역시 노력의 영향을 받으므로 무작정 커지지는 않고 적당한 행동에 수렴하게 됩니다. 적절한 보상 풀을 설정하는 것으로 리뷰의 퀄리티를 높일 수 있습니다.

현재 보상 체계는 에이전트가 주체로부터 기(旣)정해진 보상 풀을 나눠 가지는 형태이므로, 참여 가능한 리뷰 작성자의 수를 제한하는 것으로 유사한 효과를 낼 수 있습니다. 다음은 에이전트를 절반인 50명으로 제한했을 경우입니다.

에이전트 수를 절반으로 줄였을 경우

위 보상을 두 배로 설정했을 경우의 히트맵과 유사한 양상으로 수렴함을 알 수 있습니다.

달리 말하자면, 참여 에이전트의 수를 변경했을 경우에는 보상풀을 함께 조정해줘야지만 원하는 결과를 유도할 수 있습니다. 가령 참여 에이전트의 수를 기존의 절반인 50으로 제한했을 경우, 보상풀 역시 절반 수준으로 줄여줘야 수렴 양상이 유지됩니다.

중간 결론

이번 글에서는 시뮬레이션의 결과를 히트맵이라는 시각화 자료를 통해 전반적으로 살펴보았습니다. 에이전트의 학습 방향 및 수렴 결과를 살펴보았으며, 세 가지 이득 분배 방법론에 따라 수렴 양상이 어떻게 차이나는지를 분석하였습니다.

Proportional보다 exponential한 방법이 에이전트의 노력 수준을 끌어 올릴 수 있음을 보였고, uniform의 경우 에이전트의 참여를 유도함을 보였습니다. 그러나 uniform에서는 리뷰 작성에 들이는 노력 수준이 최하로 나타났습니다.

리뷰의 퀄리티보다 높은 참여율을 우선시한다면 uniform한 이득 분배 방법을 취하는 것이 적합합니다. 반면 리뷰 하나하나의 퀄리티를 우선시한다면 exponential한 이득 분배 방법이 적합합니다. 이러한 트레이드 오프(trade-off) 사이에서 절충 지점을 찾는다면 proportional한 이득 분배 방법이 답이 될 수 있습니다.

또한, 보상 풀의 규모를 달리하거나 에이전트의 참여 수를 제한하는 것으로 노력 수준을 조율할 수 있음을 보였습니다. 다른 조건이 동등할 때, 보상 풀을 키우자 노력을 많이 들일 확률이 높아졌습니다. 주어진 파이를 나눠 가지는 본 시스템의 특성상 보상 풀을 키우는 것과 에이전트 수를 줄이는 것이 동등한 효과를 가졌습니다. 시스템 설계자는 이러한 점을 감안하여 이득 분배 방법론과 보상 풀, 그리고 에이전트의 참여 수를 결정해야 합니다.

다음 글에서는 그래프와 수치를 통해 각 이득 분배 방법론에 대한 상세한 분석을 진행하겠습니다.