데이터의 가치를 어떻게 평가할 수 있을까?

데이터의 가치 평가가 어려운 이유와 에어블록의 CPA 모델

에어블록 프로토콜에서는 사용자의 동의를 받은 데이터가 탈중앙화된 데이터 마켓을 통해 거래됩니다. (여기서 말하는 데이터는 유저들이 웹, 앱에서 검색이나 구매 등의 활동을 하는 경우 만들어지는 정보들을 의미합니다.)

데이터의 거래가 이루어지기 위해서는 적정한 가격이 매겨져야 하는데요. 이를 위해 거래에 참여하는 주체들은 각자 데이터에 대한 가치를 평가하게 됩니다. 하지만 데이터라는 재화는 몇 가지 이유로 인해 그 가치를 정확하게 평가하는 것이 쉽지 않습니다.

이 글에서는 데이터의 가치를 평가하는 것이 왜 어려운지 살펴보려고 합니다. 여기에 더 나아가, 데이터의 가치를 적절하게 평가하기 위해 에어블록 프로토콜이 도입하려고 하는 데이터 가치 평가 방식에 대해 소개하도록 하겠습니다.

데이터의 가치 평가가 왜 어려울까?

데이터의 가치 평가가 어려운 이유를 알아보기 위해 Silicon Valley Data Science의 Valuing Data is Hard — Chloe Mawer 글을 참조하였습니다.

밸류체인 기반의 데이터 가치 평가

밸류체인 (Value Chain) 이란 재화가 원재료부터 시작해 가공, 유통되어 부가가치를 창출하는 일련의 과정을 뜻합니다. 밸류체인의 각 지점에서는 새로운 가치가 더해지고, 전 과정을 거치게 되면 최종 생산물이 만들어집니다.

최종 생산물의 가치는 밸류체인의 각 지점에서 원재료에 더해지는 부가가치의 총합으로 측정할 수 있습니다. 동시에 원재료의 가치 또한 최종 생산물의 가치를 바탕으로 부가가치를 역산해 측정할 수 있습니다. 밸류체인을 거치는 일반적인 재화의 가치는 보통 이러한 과정을 통해 평가됩니다.

From Valuing Data is Hard— Silicon Valley Data Science

데이터도 밸류체인에 적용해볼 수 있습니다. 데이터의 밸류체인은 원재료인 로우 데이터(Raw data) 부터 시작해 가공, 통합, 분석 과정을 거쳐 어떤 목적을 위해 쓰이고 최종적인 재화로서의 가치를 발생시킵니다. 데이터 마켓에서 거래되는 데이터는 주로 로우 데이터나 여기에 약간의 가공과 통합 과정을 거친 데이터입니다. 따라서 로우 데이터 단계에서 데이터의 가치가 평가됩니다. 이 말은 곧 최종생산물의 가치를 역산해 로우 데이터의 가치를 평가해야 된다는 것을 의미합니다.

하지만 데이터는 밸류체인을 이용하는 일반적인 가치 평가 방식을 도입하는데 어려움이 많습니다. 가장 큰 이유는 데이터가 경험재이기 때문입니다.

경험재란 소비자가 재화를 소비하기 전에 그 가치를 예측하기 힘든 재화를 뜻합니다. 데이터의 경우, 구매자가 가공과 분석을 수행하기 이전에는 데이터가 산출하는 가치를 예측할 수 없어 경험재에 포함됩니다. 그렇다면 구매자는 데이터가 만들어 낼 가치를 왜 예측하기 힘들까요? 아래 여러가지 경우를 통해 좀 더 자세히 살펴보겠습니다.

  1. 데이터의 최종 가치가 0인 경우
    데이터가 만들어내는 가치의 크기는 구매자에게 얼마만큼의 가치를 제공해주는 지에 따라 결정됩니다. 하지만 최종가치의 범위는 예측하기 쉽지 않습니다. 데이터가 구매자의 목적에 완전히 부합하는 결과를 얻을 수도 있지만 이전과 같은 인사이트를 얻거나 아예 아무런 쓸모가 없는 인사이트를 얻을 수도 있기 때문입니다. 가령 여행 관련 키워드를 검색한 유저들의 구매 패턴을 분석하기 위해 데이터를 구입했지만 유의미한 패턴을 찾지 못한 경우에, 구입한 데이터의 가치는 0일 것입니다.
  2. 같은 로우 데이터가 여러 분야에 사용되는 경우
    원유와 같은 재화의 경우, 가공하기 전이라도 최종적으로 만들어지는 기름이 어느 곳에 쓰일지 한정되어있습니다. 반면에 데이터는 사용폭이 정해져있지 않습니다. 예를 들어, 유동인구 데이터는 상권 분석에 쓰일 수도 있지만 지도를 만드는 데 쓰일 수도 있습니다. 쓰이는 곳이 다르면 그에 대한 가치도 달라져 원재료 데이터에 정확한 가치를 반영하는 것이 어렵습니다.
  3. 서로 다른 로우 데이터이지만 동일한 분석 결과를 얻는 경우
    반대로 동일한 분석 결과를 얻기 위해 아예 다른 데이터가 사용될 수도 있습니다. 어느 한 지역의 유동인구 분석 결과를 얻기 위해 휴대폰 사용자 데이터를 이용할 수도 있지만 인공위성 데이터를 이용할 수도 있습니다. 이 점이 중요한 이유는 재화의 가치는 대체될 수 있는 재화의 유무 여부에 따라서도 영향을 받기 때문입니다. 대체될 수 있는 재화가 많다면 재화의 가치는 낮아집니다. 하지만 로우 데이터 단계에서, 분석된 데이터가 대체될 수 있을 지 예측하는 것은 쉽지 않습니다.
  4. 분야별로 요구하는 데이터의 가공 수준이 다른 경우
    쓰이는 곳에 따라 요구하는 데이터의 가공 수준은 다를 수 있습니다. 예를 들어 장기간의 주가 추세 데이터 모델을 만드는 경우에는 아웃라이어 (Outlier) 가 제거된 깔끔한 데이터 가공 수준을 원할것입니다. 반면, 주가 변동에 대한 모델을 만드는 경우에는 아웃라이어가 제거된 데이터는 단기적인 변동폭을 분석하는데 적절하지 않은 데이터가 될 것입니다. 따라서 가공이 어떻게 되어있느냐에 따라서도 데이터의 가치는 달라질 수 있습니다.

생산비용을 기반으로 데이터의 가치를 평가할 수는 없을까?

최종 생산물을 기반으로 하는 가치평가가 어렵다면 생산 비용으로 가치를 평가하는 방법을 생각해 볼 수도 있습니다. 하지만 이 방법 역시 데이터에 적용하는것은 바람직하지 않습니다. 데이터는 비경합재이기 때문입니다.

재화는 경합재와 비경합재로 나누어집니다. 경합재란, 어느 한 사람이 소비하는 동안 다른 사람은 소비할 수 없는 재화를 의미합니다. 먹고있는 음식, 입고있는 옷 등이 여기에 해당됩니다. 반면에 비경합재는 누군가 사용하고 있어도 타인이 사용할 수 있는 재화입니다. 또한, 여러 사람이 사용해도 소모되지 않습니다.

우리가 가치를 평가하고자 하는 데이터도 비경합재에 포함됩니다. 데이터는 복사해서 여러 사람들에게 제공해도 가지고 있는 원본 데이터에는 아무런 영향이 없습니다. 심지어 데이터를 복사하는데 드는 비용은 거의 0입니다. 비용을 들이지 않고 무수히 많은 동질의 재화를 만들어 낼 수 있다는 뜻입니다. 이렇게 만들어지는 데이터는 불법 복제된 영화 파일처럼 수 많은 곳에 쓰일것입니다.

이러한 특성 때문에 생산 비용으로 데이터에 대한 가치를 평가하는 것 역시 적절하지 않습니다. 데이터를 만드는 데 들어가는 생산비용은 오직 원본 데이터에만 적용되기 때문입니다. 원본 데이터가 얼마나 많이 복사본으로 쓰일 지 예측할 수 없어 데이터 재화의 한 단위 당 생산 비용을 산출하는 것은 거의 불가능합니다. 따라서 데이터를 생산하는데 들어가는 비용으로 데이터의 가치를 평가하는 것 역시 어려운 일입니다.

지금까지 살펴본 내용을 종합해보자면, 로우 데이터로부터 밸류체인을 거쳐 산출되는 가치의 총합과 생산 비용을 예측할 수 없기 때문에, 데이터의 가치를 데이터가 가공되기 전에 평가하는 것은 불가능에 가까웠습니다.

하지만 반대로 생각했을 때, 최종생산물의 가치와 생산 비용을 알 수만 있다면 데이터에 대한 가치 평가가 가능하다는 것을 의미하기도 합니다.


에어블록이 도입하려는 데이터 가치 평가 방식

에어블록 프로토콜은 위와 같이 데이터에 대한 가치 평가가 어렵다는 점을 인지하고 데이터의 가치를 적절하게 반영할 수 있는 방법을 연구하고 있습니다. 그 방법 중 하나로 생각하는 방식이 온라인 광고시장의 가격 모델 중 하나인 CPA 모델을 적용하는 것입니다.

CPA 모델이란 Cost Per Acquisition의 약자로, Cost Per Action, Cost Per Sale 등의 용어로 쓰이기도 합니다. 이 방식은 광고를 게시한 후, 매출에 기여를 한 소비자 행동을 집계해 광고비를 지급합니다. 여기서 말하는 소비자의 행동은 광고를 보고 상품을 구입하기 위해 앱을 다운 받거나 회원 가입을 하는 등의 행동을 의미합니다. CPA 모델을 적용할 경우 광고주는 실제 매출에 영향을 준 광고에만 비용을 지불해 무의미하게 낭비되는 광고비를 절감할 수 있습니다.

From Cost Per Action— Technology — Stable-Ads

CPA 모델에서 주목할 점은 비용이 사후적으로 책정된다는 것입니다. CPA 모델에서 광고비는 매출에 직,간접적으로 영향을 준 행동들을 집계해 책정됩니다.

에어블록은 이러한 CPA 모델의 특성을 데이터의 가치 평가 방식에 도입하고자 합니다. 앞서 살펴보았듯이 로우 데이터는 최종 생산물의 가치를 예측하기 힘들고 얼마나 많이 생산될 지 알 수 없기 때문에 사전적인 가치 평가가 불가능했습니다. 반면에 CPA 모델을 적용하면 데이터가 매출에 기여한 정도를 책정할 수 있어 최종적으로 얼마만큼의 경제적인 가치가 실현되었는지 알 수 있습니다. 뿐만 아니라 데이터가 몇 번이나 복사되어 재생산되었는지도 집계가 가능합니다.

데이터 가치 평가 방식에 CPA 모델을 적용하는 것이 가능한 이유는 블록체인을 통해 데이터가 유통되는 전 과정을 용이하게 추적할 수 있기 때문입니다. 데이터의 이동 경로는 블록체인에 모두 기록되어, 어느 곳에 데이터가 공급되었고, 어디에 쓰였는 지 알 수 있습니다. 뿐만 아니라, 데이터가 최종적으로 쓰이는 곳과 블록체인이 연동만 되어 있으면 데이터가 어느 매출 요인에 영향을 주었는지도 확인할 수 있습니다. 따라서 데이터가 실제로 발생시킨 경제적인 이익을 로우 데이터 단계에 반영할 수 있어 보다 정밀한 데이터의 가치 평가가 가능합니다.

데이터의 가치 평가 방식에 CPA 모델이 적용되면 로우 데이터는 거의 무료나 아주 적은 비용에 제공될 수 있습니다. 대신 제공된 데이터를 활용해 광고가 집행되고, 매출이 발생한다면 광고주는 데이터 제공자에게 데이터로 인해 발생한 매출의 일부를 지급합니다. 따라서 데이터 제공에 동의한 유저들은 데이터가 경제적인 가치를 발생시킬 때마다 보상을 받을 수 있습니다.

CPA 모델을 적용했을 때 얻을 수 있는 추가적인 장점은 에어블록 프로토콜에서 거래되는 데이터에 대한 퀄리티 컨트롤이 가능하다는 것입니다. 탈중앙화된 프로토콜에서 거래되는 재화는 중간에서 퀄리티를 검증하는 주체가 없습니다. 특히 데이터는 구입하기 전까지 안에 포함된 내용을 열람할 수 없기 때문에, 신뢰성 없는 허위 데이터 (Fake Data) 가 거래될 가능성도 큽니다.

하지만 CPA 모델을 적용한다면 경제적인 가치를 발생시키지 않는 허위 데이터에 대한 비용을 치르지 않게 되므로, 허위 데이터를 에어블록에 제공해도 이득을 볼 수 없습니다. 경제적인 가치를 지니는 데이터에 대해서 그만큼의 비용을 지불한다는 CPA 모델을 통해, 결과적으로 에어블록 프로토콜에서는 실제 가치를 가진 데이터만 거래될 것입니다.

CPA 모델의 고려사항

CPA 모델을 데이터 가치 평가 방식에 적용하는데에는 몇 가지 고려해야 할 점이 있습니다.

  • 블록체인에 기록되어야 하는 광고 성과

광고 성과가 데이터의 가치에 반영되기 위해서는 블록체인에 광고 성과가 기록되어야 합니다. 허위로 광고 성과가 측정되는 것을 막아야 하기 때문입니다. 따라서 데이터 유통망에 광고 매체가 포함되어 광고 성과에 대한 정보를 지속적으로 전송하고 검증하는 구조가 필요합니다. 에어블록 프로토콜은 이를 위해 광고 매체를 데이터 유통망에 포함시켜 광고 성과 정보가 블록체인에 기록될 수 있는 구조를 설계하고 있습니다.

  • 데이터가 쓰이는 목적 구분

에어블록 프로토콜을 통해 거래되는 데이터는 직접적으로 경제적인 가치를 만들어 내는 경우에만 쓰이지 않습니다. 기업 내부적으로 비즈니스 인사이트를 얻기 위해 쓰이기도 하고, 연구 기관에서 연구 목적으로 쓰이기도 합니다. 후자의 경우엔 데이터의 결과물이 발생시킨 가치를 측정하는 것이 불가능해 로우 데이터에 반영할 수 없습니다. 이러한 이유로 데이터가 쓰이는 목적에 따라 가치 평가 방식도 달리 적용되어야 합니다. 에어블록 프로토콜은 우선적으로 데이터가 광고에 쓰여 경제적인 가치 측정이 수월한 경우에 초점을 맞추어 연구를 진행하고 있습니다. 간접적으로 가치를 발생시키는 경우에 대해서는 사용 목적에 따라 정찰제를 시행하거나, 제공하는 데이터의 수준을 달리 하는 방식 등을 추가적으로 연구중입니다.

마치며

CPA 모델을 통해 최종적으로 생산되는 가치를 로우 데이터에 반영하는 것은 보다 정밀하게 데이터의 가치를 평가할 수 있는 방법입니다. 더불어, 허위로 데이터를 제공하는 것을 방지하고 실질적으로 가치 있는 데이터가 유통되도록 장려할 수 있습니다.

물론 데이터 가격을 단순히 임의대로 정하거나 시장에 맡기는 방법은 간단합니다. 하지만 앞서 살펴보았듯이, 데이터는 시장 참여자들이 쉽게 가치를 평가할 수 있는 재화가 아닙니다. 재화의 가치와 가격이 적정하게 평가되지 않는다면 시장은 왜곡될 것이며, 데이터 제공에 동의한 유저들 역시 적정한 보상을 받지 못할 것입니다.

따라서 에어블록 프로토콜 팀은 유저가 제공한 데이터의 가치가 더욱 정확하게 평가되도록 많은 연구를 진행하고 있습니다. 앞으로 연구한 결과들을 지속적으로 업데이트 할 예정이니 많은 관심 부탁드립니다.