Simulation of Commission Design: 커미션 시스템 설계 Part 2

Jeffrey Lim
DECON
Published in
10 min readMar 15, 2019

Simulation of Commission Design

Part 0: Why Simulation?
Part 1: 커미션 시스템 설계 및 시뮬레이션 환경 소개
Part 2: 시뮬레이션 결과 분석

잠깐 과거 디콘 시뮬레이션 시리즈 ‘Simulation of Incentive Design: 어떤 보상 시스템이 가장 적합한가?’를 떠올려봅시다. 해당 프로젝트에서 호텔 리뷰를 작성할 때 보상 분배 방법에 따라 리뷰 참여율과 노력분포가 달라질 수 있음을 보였습니다.

이번에는 일련의 딜이 주어지는 상황에서 커미션 포인트 분배 방법에 따라 딜의 성사 여부 및 성사되기까지 소요되는 시간의 변화를 살펴보도록 하겠습니다.

시뮬레이션 결과

본 시뮬레이션에서는 무작위(random)형, 균일형, 체증형, 체감형, 볼록형, 그리고 오목형의 총 6종류의 커미션 포인트 분배 방법론(이하 메커니즘)을 비교해 보았습니다.

  1. Random: 무작위형. 물건을 언제, 얼마나 사는과에 관계 없이 포인트가 배분됨
  2. Uniform: 균일형. 물건을 언제 사든 같은 포인트를 받음. 구매하는 수량에 비례함.
  3. Increasing: 체증형. 물건을 나중에 살 수록 포인트를 많이 받음.
  4. Decreasing: 체감형. 물건을 나중에 살 수록 포인트를 많이 받음.
  5. Convex: 볼록형. 물건을 처음이나 끝에 살 때 포인트를 많이 받음.
  6. Concave: 오목형. 물건을 중간에 살 때 포인트를 많이 받음.

똑같은 딜들을 진행하더라도 메커니즘에 따라 성공 여부가 달라지며, 딜이 체결되더라도 소요되는 시간이 달라집니다.

각 에이전트는 얻을 수 있는 포인트가 가장 높을 때를 노려 물품을 구매하고자 할 것입니다. 얼핏 생각하기에 체증형에서는 서로 다른 에이전트가 물건을 사주기를 기다리느라 딜이 체결되지 않거나, 체결되더라도 그 시간이 오래 걸릴 것입니다. 반면 체감형에서는 서로 물건을 빨리 구매하고자 하여 딜이 빨리 성사될 것입니다.

예상이 맞는지 아래 메커니즘별 결과 및 해석을 통해 알아보겠습니다. ‘물품 판매 수량’과 ‘물품의 가격’이 다른 30종류의 딜을 진행하고, 그 평균치를 그래프에 나타내었습니다.

매커니즘별 결과 및 해석

무작위형

무작위형은 다른 메커니즘과는 다르게 딜이 체결되기까지 남은 상품의 개수와 포인트 사이에 상관관계가 존재하지 않습니다.

(좌) 딜 성공률, (우) 딜 체결 시간

좌측의 그래프는 매 20 에피소드마다의 딜 성공률을 기록한 그래프입니다. 총 1,000 에피소드를 진행했으므로 50개의 점이 찍혀 있습니다. 우측의 그래프는 평균적인 딜 체결 시간을 기록한 그래프입니다.

학습 초기에는 딜 성공률이 올라가면서 딜 체결 시간도 줄어드는 모습을 보여주었습니다. 하지만 학습이 더 진행됨에 따라 딜 성공률이 다시 떨어지고 체결 시간도 소폭 늘어나는 것으로 마무리됩니다. 이는 에이전트들이 초기 학습 구간에서는 손해를 보면서도 딜에 참여하나, 학습이 진행됨에 따라 딜에 참여하지 않기 때문입니다.

균일형

두 번째로 살펴볼 보상 메커니즘은 균일형입니다. 균일형에서는 남은 수량이 얼마든 받을 수 있는 보상 포인트는 동일합니다.

이러한 메커니즘에서는 최대한 나중에 딜에 참여해 돈이 묶이는 시간을 최소화하려 할 것입니다. 모든 구매자들이 이런 전략을 가지고 행동할 것이므로, 얼핏 생각하기로는 서로 딜 참여를 미루다가 딜이 체결되지 않는 현상이 예상됩니다.

(좌) 딜 성공률, (우) 딜 체결 시간

그러나, 예상과는 달리 학습이 진행됨에 따라 딜의 성공률이 0.9를 넘길 정도로 높아집니다. 또한, 딜 체결까지 걸리는 평균 시간도 500ms 수준까지 감소합니다.

돈이 묶이는 시간을 최소화하는 것보다 딜에 참여하지 못해 보상을 얻지 못하는 기회비용이 더 크기 때문에, 모든 구매자들이 적극적으로 딜에 참여해 이런 결과가 나타난 것으로 해석됩니다.

체감형

세 번째로 살펴볼 보상 메커니즘은 체감형입니다. 딜 체결까지 남은 수량이 줄어듦에 따라 받을 수 있는 포인트도 줄어듭니다.

이런 상황에서는 구매자들이 서로 먼저 딜에 참여해 조금이라도 더 많은 포인트를 가져가려 할 것입니다. 하지만, 딜의 끝 무렵에 가서는 받을 수 있는 포인트가 거의 없으므로 딜의 성사가 어려울 수 있습니다. 체감형 메커니즘이 딜 성공 여부와 체결 시간에 어떠한 영향을 끼치는지 알아보겠습니다.

(좌) 딜 성공률, (우) 딜 체결 시간

이전 메커니즘들보다 현저히 딜 성공률이 낮아진 것을 확인할 수 있습니다. 이는 남은 물품의 수량이 거의 없을 경우, 딜에 참여해도 받을 수 있는 포인트가 거의 없기 때문으로 해석됩니다. 즉, 마지막에 딜에 참여하는 사람이 없으므로 딜이 성사되지 않는 것입니다.

덩달아 앞서 구매 예치금을 넣었던 구매자들도 학습이 진행됨에 따라 딜이 실패할 것임을 깨닫게 되고, 괜히 돈이 묶이는 데서 오는 비용(cost)을 회피하기 위해 구매를 하지 않는 방향으로 학습할 것입니다.

결국 아무도 딜에 참여하지 않게 되고, 딜 진행 시간을 전부 쓰고서 실패하는 딜이 많아져 평균 딜 체결 시간도 길어지게 됩니다.

체증형

네 번째 보상 메커니즘은 체증형입니다. 딜 체결까지 남은 수량이 줄어듦에 따라 받을 수 있는 포인트가 늘어납니다.

이러한 메커니즘 하에서는 구매자들이 서로 나중에 딜에 참여해 많은 포인트를 가져가려 할 것입니다. 하지만, 딜의 초반에는 받을 수 있는 포인트가 거의 없으므로 딜이 성사가 어려울 수 있습니다.

(좌) 딜 성공률, (우) 딜 체결 시간

체증형 메커니즘은 체감형 메커니즘보다는 전체적으로 높은 딜 성공률, 그리고 짧은 평균 딜 체결 시간을 보이지만, 무작위형이나 균일형보다는 낮은 성공률과 긴 체결 시간을 보입니다.

학습 초기에는 딜에 참여하면 이득을 봄으로써 빠르게 참여해 성공률이 높고 체결 시간은 짧았습니다. 하지만 학습이 진행됨에 따라 후반에 참여하는 것이 이득임을 학습하여, 초반에 참여하는 구매자가 사라지고, 결국 딜이 체결되지 않는 것을 확인할 수 있습니다.

딜 구매가 지체되는 병목 구간이 초반에 존재해, 해소될 가능성이 체감형보다 크므로 상대적으로 높은 딜 성공률을 보입니다.

볼록형

다섯 번째 보상 메커니즘은 볼록형입니다. 딜 체결까지 남은 수량이 줄어듦에 따라 받을 수 있는 포인트가 줄어들다가, 물품 수량의 절반 지점이 지나며 다시 증가합니다. 딜의 처음과 나중에 사람들을 끌어모으는 것이 중요할 때 이와 같은 메커니즘을 사용할 것입니다.

앞의 사례를 통해 미루어보건대, 이러한 메커니즘을 사용할 때는 딜 중간에서 포인트가 너무 낮아지지 않도록 해야 딜이 체결될 것입니다. 아래는 볼록형 메커니즘에서 딜 성공률과 딜 체결 평균 시간을 나타낸 그래프입니다.

(좌) 딜 성공률, (우) 딜 체결 시간

볼록형은 체증형보다는 낮지만 체감형보다는 높은 딜 성공률을 보입니다. 이는 병목 구간이 중간 지점에 있으므로, 병목이 해소될 가능성 역시 그 중간이기 때문입니다.

오목형

마지막 메커니즘은 오목형입니다. 딜 중간에서 보상이 가장 많고, 초반과 마지막에 가장 적습니다.

(좌) 딜 성공률, (우) 딜 체결 시간

다른 메커니즘 분석에서 알 수 있듯이, 딜 성공률을 높이기 위해서는 병목 구간, 즉 보상이 낮은 구간을 잘 통과해야 합니다. 오목형에서는 초반과 후반 두 군데나 병목 구간이 있습니다. 그러므로 타 메커니즘보다 딜 성공률이 떨어지고 평균 체결 시간 또한 길어지게 됩니다.

종합

다음은 모든 보상 메커니즘의 딜 성공률과 딜 체결 시간을 비교한 그래프입니다.

(좌) 딜 성공률, (우) 딜 체결 시간

균일형, 무작위형, 체감형, 볼록형, 체증형, 오목형 순으로 딜 성공률이 높은 것을 알 수 있습니다. 딜 체결 시간은 그 역순입니다. 달리 말하자면 딜의 성공률을 올리고 체결 시간을 줄이기 위해서는 보상의 편차가 작은 편이 유리합니다. 또한, 구매가 지체되는 병목 구간은 초반에 있을수록 유리합니다.

아래는 메커니즘에 따른 커미션 포인트의 표준편차를 나타낸 표입니다. 10명의 agent가 순서대로 물건을 10개씩 샀을때 얻을 수 있는 커미션포인트 비율의 표준편차인데, 이를 통해 보상이 얼마나 차별적으로 분배되는지 가늠할 수 있습니다.

균일형과 무작위형에서의 표준편차가 가장 작은 것을 확인할 수 있습니다. 이런 고른 보상분배가 높은 딜 성공률과 낮은 딜 체결 시간을 만드는 것입니다.

결론

시뮬레이션을 통해 보상 메커니즘에 따라 딜 성공률과 체결 시간이 달라짐을 살펴보았습니다.

보상의 분배가 균일할 경우에 가장 딜 체결율이 높고 체결까지 걸리는 시간도 짧아 설계자 입장에서 가장 효율적인 메커니즘입니다. 지난 시뮬레이션인 ‘Simulation of Incentive Design: 어떤 보상 시스템이 가장 적합한가?’에서는 차별적인 보상 분배서 효율이 가장 높았던 것과는 상반되는 결과입니다.

이는 지난 시뮬레이션에서는 타 에이전트의 참여가 없더라도 자신의 보상이 줄어들지 않았으나, 이번 시뮬레이션에서 다른 에이전트의 참여가 없으면 자신도 보상을 받을 수 없기 때문입니다.

이렇듯 에이전트의 상호작용이 바뀜에 따라 적절한 보상 시스템도 달라집니다. 시스템 설계자는 자신의 시스템이 어떤 특성을 가지는지 잘 이해하고 적절한 보상 시스템을 설계해야 할 것입니다.

Written by Luke, Jeffrey @ Decon

About Decon

Decon은 블록체인 프로젝트들을 자문하고 있는 암호경제학 연구소로써 실제 가치를 만들어낼 수 있는 토큰 모델 설계를 연구하고 있습니다. 시뮬레이션과 관련하여 함께 연구하고 싶은 분이나, 문의 사항이 있으신 분들은 언제든지 contact@deconlab.io로 연락 주시기 바랍니다.

Homepage: https://deconlab.io

Facebook: https://www.facebook.com/deconcryptolab/

--

--

Jeffrey Lim
DECON
Writer for

Interested in RL adaption to the real world. Building simulation models to validate the token economies with agent-based RL.