Web3 Data Landscape의 이해

Sumin
Decipher Media |디사이퍼 미디어
44 min readJul 8, 2023

서울대학교 블록체인 학회 디사이퍼(Decipher)에서 ‘Web3 Data Landscape’를 주제로 Weekly Session에서 발표한 내용입니다. 이 글은 Web3에서 Data의 의미와 중요성에 대해 논의하고, Web3 Data만의 특성에 따라 어떠한 생태계가 조성되고 있는지를 살펴봅니다. Web3 Data가 활용되는 Value-chain을 기준으로 하여 정리하였습니다.

Author: 여석원, 진수민

Seoul Nat’l Univ. Blockchain Academy Decipher(@decipher-media)

Reviewed By (박찬우, 하성환, 임요한)

글은 아래와 같이 구성되어 있습니다. 먼저 Web3 Data Landscape를 살펴보는 이유에 대해 이야기하며, Landscape을 이해하기 위한 Framework을 정의합니다. 정의한 Framework에 따라 각 단계별로 세부적인 역할과 대표 사례를 차례대로 소개할 예정입니다.

1. Introduction
2. Web3 Data Landscape Overview
3. 수집・저장
4. 처리・가공
5. 분석・모델링
6. 활용
7. 커뮤니티
8. Wrap Up

1. Introduction

ChatGPT의 등장으로 AI가 엄청난 주목을 받았습니다. 마치 인간과 같이 자연스러운 문장을 구사하는 언어 모델로 세계를 뒤흔든 OpenAI의 CEO 샘 알트먼은 AI가 인간이 하는 대부분의 노동을 대체할 것이며, 미래에는 인간에게 기본 소득을 줘야한다고 이야기합니다. 샘 알트먼의 또 다른 야심작인 Web3 프로젝트 World Coin은 오브(Orb)라는 장비를 통해 인간의 홍채를 스캔하여 디지털 신원 인증을 가능하게 합니다. 이를 통해 AI와 구분되는 인간임을 증명할 수 있습니다.

홍채 인식 장비 오브(Orb)와 샘 알트먼

ChatGPT로 AI가 대중에게 관심을 받게 되었지만, 사실 AI가 어느 날 갑자기 등장한 것은 아닙니다. 오랜 시간에 걸쳐 연구된 AI 기술은 어떻게 이 정도 수준으로 발전할 수 있었을까요? 복잡한 연산에 소요되는 시간을 크게 단축시킨 하드웨어의 발전도 있겠으나, 가장 큰 Driving Force는 AI의 학습 재료인 데이터의 양 증가, 그리고 AI의 뇌라고 할 수 있는 알고리즘의 발전을 꼽을 수 있습니다. 그리고 알고리즘의 발전에는 ‘오픈 소스’가 큰 역할을 기여했습니다.

AI의 오픈소스 문화로 누구나 쉽게 AI 모델을 학습시킬 수 있다

AI의 역사에 한 획을 그은 사건이 있는데, 바로 이미지 인식 대회인 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)의 딥러닝 등장입니다. 이 대회는 100만 장 넘는 이미지 데이터를 학습한 뒤 이미지가 무엇인지 맞추고 그 성능을 평가하는 대회입니다. 기존에는 전통적인 컴퓨터 비전 방식이 사용되었으나, 2012년 최초로 CNN(Convolutional Neural Network) 구조의 딥러닝 방식인 AlexNet 알고리즘을 적용하게 됩니다. AlexNet이 정확도를 10%이상 향상시키면서 우승하자, 딥러닝에 대한 관심이 급증하였고 인공지능 연구가 활성화 되기 시작합니다. 사람들은 이러한 딥러닝 모델을 독점적으로 사용하는 것이 아니라 코드를 공개하였습니다. 소스 코드 공개로 서로의 아이디어를 공유하고, 진화시키며 다양한 방식의 알고리즘이 등장하였습니다. 이제는 오픈소스를 통해 누구나 쉽게 딥러닝 모델을 개발할 수 있습니다.

ILSVRC 연도별 정확도 향상 (출처 : 인공지능 이미지 인식 기술동향, 이주열, LG CNS AI 빅데이터 연구소)

AI의 재료인 데이터의 양이 많을 수록 AI모델의 성능이 향상된다

2012년 AlexNet 등장 이후 딥러닝 알고리즘으로 매년 정확도 수준이 증가하였고, 2017년에는 97% 이상의 정확도 수준에 도달하여 경쟁이 무의미해 졌습니다. 이렇게 딥러닝 모델이 발전할 수 있었던 것은 오픈 소스를 통한 알고리즘 연구 뿐 아니라, 딥러닝을 학습시킬 수 있는 많은 양의 데이터가 있었기 때문입니다. 이 대회에서 제공된 ImageNet 데이터는 시각적 객체 인식 소프트웨어 연구에 사용하도록 설계된 대규모 시각적 데이터베이스로, 무려 1,400만 개 이상의 이미지에 어떤 개체가 그려져 있는지 사람이 직접 주석(Label)을 달았습니다.

AI 학습을 위해 데이터를 사고 팔기도 한다

OpenAI가 막대한 비용을 들여 엄청난 양의 데이터를 학습시키고, ChatGPT 모델을 탄생시킨 것 처럼, 데이터는 AI 시대에 매우 중요한 자원입니다. 그렇기 때문에 네이버는 스마트폰으로 영수증을 스캔해 방문을 인증하는 영수증 리뷰로 고객 데이터를 확보하며 이를 AI 연구에 활용하기도 합니다. ChatGPT 등장 이후 미국의 대표적인 온라인 커뮤니티인 레딧은 커뮤니티 데이터를 AI 학습에 사용하고 사용자에게는 그 가치를 돌려주지 않은 기업들이 비용을 지불해야 한다며, 데이터를 유료화하겠다고 선언했습니다. 다른 기업들이 레딧 커뮤니티 내 대화를 다운로드 하거나 처리할 수 있는 API를 이용할 때 비용을 청구한다는 것입니다. 이렇듯 AI 산업이 커지면서 AI 학습에 필요한 데이터의 가치도 함께 높아지고 있습니다.

네이버는 수집한 영수증 데이터로 AI 기술 연구 개발에도 활용한다.

Web3는 데이터를 오픈소스화 한다

기존 플랫폼이 변화하는 방향을 유심히 지켜보면, 블록체인 기술이 떠오릅니다. 블록체인은 Web3 세상에서 일어나는 거래의 영수증을 이미 제공하는 것과 마찬가지로, 모든 거래 데이터를 보유하고 투명하게 공개하고 있습니다. 또한, 기존 기업들이 유저들이 생성한 데이터를 바탕으로 수익을 취한 것과 다르게 데이터의 소유자나 생성자에게 직접적인 경제적 보상을 가능하게 합니다.

블록체인은 데이터가 쌓이고 활용되는 방식을 바꾸는 기술로, 결국 데이터를 오픈 소스화 한다고 설명할 수 있습니다. 기존에는 기업이나 거대 플랫폼이 데이터를 독점적으로 소유하였으나 이제는 누구나 데이터에 접근할 수 있게 되었습니다.

활용이 어려운 Web3 데이터의 특징

누구에게나 접근할 수 있도록 오픈된 데이터이지만, 실제로 활용하기에는 꽤 불편한 특징도 있습니다. 데이터가 여기저기에 흩어져 있기 때문에, 정보를 모으려면 매우 복잡한 과정이 필요합니다. 예를 들어, 특정 NFT와 관련된 거래 정보를 모두 파악하기 위해서는 메인넷의 거래내역 뿐 아니라 탈중앙화 저장소에 있는 이미지, NFT의 특성과 설명 등을 포함하는 메타 데이터, 중앙화 거래소에서 각 거래 시점의 가격 데이터 등이 필요합니다. 블록체인에 저장된 데이터를 그대로 쓸 수가 없다는 단점도 있습니다. Raw 데이터는 사람이 읽을 수 있는 형태가 아니기 때문에 읽기 쉬운 형태로 추출하고 가공하는 작업이 필수적입니다.

Web3에서 데이터를 활용하기 위해 흩어진 데이터를 모으고 처리하는 일련의 과정을 직접 거치기에는 복잡할 뿐 아니라 높은 수준의 비용이 발생하는 작업이기 때문에, 이러한 Web3 데이터 특성에 맞는 인프라와 Tool이 활발하게 등장하고 있습니다. 마치 기존의 데이터 산업에서 Cloud 전환, AI 기술의 발전, 대중화 등 다양한 기술 환경과 각각의 수요에 맞추어 서비스가 존재하는 것 처럼 Web3 데이터 특성에 맞는 데이터 생태계가 조성되고 있습니다. Web2 데이터 시장에 비하면 아직 소규모인 초기 단계이지만, 블록체인 데이터를 쉽게 가져올 수 있도록 하는 인프라 영역이 먼저 성장한 이후, 최근에는 데이터 분석 및 활용에 대한 움직임이 돋보이고 있습니다. 예를 들어, 오프체인 데이터와의 Integration이 강조되고 있으며, Trading 데이터 중심의 분석 뿐 아니라 Web3 서비스 현황을 분석하려는 시도가 등장하고 있습니다. 기초 통계량 요약이나 Trend 시각화 외에도 보다 고도화된 분석이나 AI 모델링 등이 논의되고 있습니다. 이에 현재의 지형을 파악해봄으로써 Web3 데이터 활용을 돕기 위해 어떠한 역할이 필요한 지, 시장은 어떠한 방향으로 성장할 수 있을 것인지 고찰해 보고자 합니다.

기존 데이터 산업에는 다양한 Tool과 서비스가 존재한다. (출처: AI/Data Landscape https://mad.firstmark.com/)

2. Web3 Data Landscape Overview

먼저, Web3 데이터의 특성에 맞는 생태계를 살펴보기 위한 Framework을 정의하는 목적으로 데이터가 어떤 과정을 거쳐 활용되는 지 Value Chain 관점에서 정리해 봅시다.

데이터의 활용 단계는 수집·저장→ 처리·가공→ 분석·모델링→ 활용으로 구성됩니다. 이는 요리하는 과정과 매우 비슷합니다. (수집·저장) 식재료를 사서 냉장고에 넣어두고, (처리·가공) 재료를 씻고 먹기 좋게 손질합니다. (분석·모델링) 맛있는 레시피를 찾아서 요리하고, (활용) 서빙을 하고 음식을 먹습니다.

Web3 데이터도 마찬가지로 이러한 일련의 과정이 필요한데, 앞에서 언급한 것 처럼 Web3 데이터를 활용하는데 까지 필요한 복잡하고 값비싼 작업을 직접 다 할 수는 없습니다. 일부 과정은 다양한 Tool 혹은 서비스의 도움을 받아서 훨씬 빠르게 진행할 수 있습니다. 예를 들어 음식을 만들기 위해 마트에 가서 재료를 구하는 것 부터 할 지, 손질된 재료를 사올 지, 밀키트를 사서 간편하게 조리만 할 지, 레시피를 개발할 지에 따라 요리를 하는 데에 드는 시간과 노력이 다른 것과 같습니다.

위에서 정의한 Framework에 따라 Web3 데이터 특성에 적합한 활용 과정과 주요 기능은 아래 표와 같이 구분할 수 있습니다. 전 과정에 걸쳐 데이터 생태계 활성화에 중요한 요소인 커뮤니티도 함께 살펴볼 예정입니다. 그럼, 각 단계별로 정의한 역할들을 주요 사례와 함께 하나씩 알아보도록 하겠습니다.

위에서 예시로 든 Tool/서비스는 실제로는 여러 단계에 걸쳐서 기능을 제공하는 경우가 많으며, 이해를 돕기 위해 대표적인 기능으로 정리하였습니다.

데이터 Value chain 관점에서 정리한 Web3 Data Landscape 요약

3. 수집・저장

가장 먼저 살펴볼 영역은 블록체인의 데이터가 가공되기 이전에 어떤 방식으로 수집되고 저장되는 지입니다. 수집/저장의 영역은 크게 데이터 분산 저장, RPC, 오라클, 데이터 마켓으로 구분할 수 있습니다. 각각의 솔루션들을 통해서 프로젝트 팀은 자신들이 원하는 데이터를 저장하거나 불러올 수 있습니다. 다음에서는 각 영역에 속하는 대표적인 프로덕트를 통해 해당 영역에 대해서 살펴보겠습니다.

3.1. 데이터 분산 저장

기존 AWS, Azure와 같은 중앙화되어 있는 데이터를 분산하여 탈중앙적으로 저장하기 위한 시도는 지금까지 계속 존재해왔습니다. 이처럼 탈중앙적으로 데이터를 저장하려는 것은 정부, 기업과 같은 중앙화되어 있는 조직의 검열을 받지 않고 자유롭게 데이터를 업로드하기 위함입니다. 해당 파트에서는 IPFS, Filecoin, Arweave의 순서로 프로젝트들을 살펴보도록하겠습니다.

IPFS

IPFS는 "InterPlanetary File System"의 약자로서, 분산형 파일 시스템에 데이터를 저장하고 인터넷으로 공유하기 위해 Protocol Labs에서 만든 프로토콜입니다. IPFS는 데이터의 내용을 변환한 해시값(CID)을 이용하여 전 세계 여러 컴퓨터에 분산 저장되어 있는 콘텐츠를 찾아서 데이터를 조각조각으로 잘게 나눠서 빠른 속도로 가져온 후 하나로 합쳐서 보여주는 방식으로 작동합니다. HTTP와 같은 전통적인 방식은 파일이 ‘어디에 위치해 있는지’를 나타낸다면 IPFS는 콘텐츠에 각각 content identifier(CID)를 부여해서 ‘해당 파일에 무엇이 들어있는지’를 나타내고, 이를 기반으로 해당 파일을 가지고 있는 노드를 찾아서 요청을 보내는 방식으로 구현되어 있습니다. 해당 방식을 통해 데이터에 대한 검열은 피할 수 있지만 노드들이 특정 데이터를 저장할 경제적 유인이 부족하다는 단점이 존재합니다.

File Coin

이를 보완하기 위해서 Protocol Labs에서 IPFS에 토큰 경제를 추가한 분산형 파일 저장 프로토콜이 바로 File Coin입니다. File Coin은 다음과 같이 저장소 시장(storage market)과 검색 시장(Retrieval market)으로 구성되어 있으며, 이때 사용되는 화폐가 바로 $FIL입니다.

저장소 시장(storage market)에서 클라이언트는 저장소 마이너에게 토큰을 지불하고 파일을 저장할 수 있습니다. 반면, 검색 시장(Retrieval market)에서 클라이언트는 검색 마이너에게 토큰을 지불하고 파일을 전달받을 수 있습니다. $FIL이라는 토큰을 도입함으로써 Protocol Labs는 IPFS의 단점을 극복할 수 있었지만, File Coin도 여전히 파일은 돈을 내고 있을 때만 저장이 보장되기에 영구적으로 데이터가 보관되기 힘들다는 단점을 가집니다.

Arweave

이처럼 기존 분산형 데이터 프로토콜들에서 데이터를 영구적으로 보관하다는 것이 어렵다는 단점을 극복하기 위해서 탄생한 것이 바로 Arweave입니다. Arweave에서는 기금 풀(Endowment Pool)이라는 장치를 도입하여 클라이언트가 한 번 데이터 저장 비용을 지불하면 데이터를 영구적으로 저장할 수 있습니다. Arweave 네트워크의 노드들은 크게 트랜잭션 수수료와 블록 보상 두 가지를 받으며, 트랜잭션 수수료는 사용자가 Arweave에 데이터를 저장하고 지불하는 대가입니다. 유저들이 이처럼 데이터 저장 비용인 트랜잭션 수수료를 지불하면 해당 금액이 바로 노드들에게 전달되는 것이 아닙니다. 최초에 트랜잭션 수수료의 14%만 노드들에게 전달되고 나머지 86%는 기금풀(Endowment Pool)에 저장됩니다. 그리고 기금풀(Endowment Pool)에 저장된 수수료는 향후 노드들이 데이터를 저장할만한 경제적인 유인이 부족해질 때 노드들에게 보상으로 주어지게 됩니다. 기술의 발전에 의해서 데이터를 저장하는 비용은 시간이 지나갈수록 낮아지고 있고, Arweave에 트랜잭션 수수료의 대부분을 기금풀(Endowment Pool)에 저장하고 있기 때문에 데이터의 영구적인 저장이 가능해지는 것입니다.

이처럼 저희는 다양한 방식으로 데이터를 탈중앙적으로 저장하는 솔루션들에 대해서 살펴보았습니다. NFT의 붐과 함께 Arweave 등의 솔루션들이 한 때 각광을 받기도 하였지만, 현재는 해당 솔루션들에 대한 수요가 많이 줄어든 상황입니다. 실제로 Arweave에 데이터를 저장하는 것이 AWS보다 경제적이 되려면 해당 데이터를 최소 30-50년 이상은 저장해야 합니다. 하지만 많은 프로젝트들이 30-50년 만큼의 장기적인 미래를 내다 보고 빌딩을 하고 있지는 않습니다. 이에 따라 당분간은 더욱 경제적이고 편리한 데이터 저장 옵션인 AWS와 Azure 등 Web2 데이터 저장 솔루션들이 Web3 생태계에서 더 많이 사용될 것으로 보입니다.

3.2. RPC

다음으로 살펴볼 영역은 RPC입니다. RPC는 Remote Procedure Call의 약자로 별도의 원격제어를 위한 코딩 없이 다른 주소 공간에서 함수나 프로시저를 실행할 수 있게 하는 프로세스간 통신 기술입니다. 다양한 온체인 데이터에 접근하기 위해서 모든 사람들이 노드를 직접 운영할 수 없기에 다양한 업체들은 블록체인 데이터에 대한 접근을 Node-as-a-Service로 판매하고 있습니다. 해당 파트에서 살펴볼 프로젝트는 RPC Node provider 중 가장 대표적인 업체인 Alchemy입니다.

Alchemy

Alchemy는 AWS, GCP와 같은 CSP(Cloud Service Provider) 업체들이 서버를 빌려주듯이 블록체인 서비스 업체들에게 노드를 대여해 줍니다. dAPP의 경우, 블록체인 데이터를 읽거나 네트워크에 트랜잭션을 전송하는 등 블록체인과 상호 작용하려면 노드에 연결이 반드시 필요합니다. 하지만 직접 노드를 세팅하고, 아카이브 노드를 동기화하는데에 오랜 시간이 소요되기 때문에, 대부분의 dAPP은 노드 서비스를 이용하게 됩니다. 이를 통해 dAPP들은 인프라 유지 및 관리에 신경쓰지 않고 제품 개발에 집중할 수 있게 되는 것입니다. Alchemy는 블록체인의 모든 과거 상태를 저장하는 아카이브 노드에 대해 접근이 가능하고, 블록체인에 읽고 쓰는데 사용할 수 있는 API 키를 제공하고 있습니다. 이 이외에도 이 외에 NFT API, Transfers API 등도 개발자를 위한 다양한 도구를 제공하고 있습니다.

RPC 서비스는 크립토 프로젝트들에게 필수적인 서비스입니다. 위에서 언급한 것처럼 직접 노드를 돌리는 것에는 많은 시간과 비용이 발생하기 때문입니다. 따라서 RPC 시장은 향후에도 많은 수요가 있을 것으로 보입니다. 분산형 데이터 저장과는 다르게 별도의 Web2 대안이 존재하는 것이 아니며, 기존 서비스 업체들이 충분히 좋은 솔루션을 제공하고 있기 때문입니다. 특히, 지금과 같은 크립토 윈터에서 RPC와 같은 Web3 인프라와 관련된 사업들의 수익성이 주목을 받고 있기 때문에 향후 더 많은 업체들이 RPC 시장에 뛰어들 것으로 예상됩니다.

3.3. 오라클

위변조가 사실상 불가능한 온체인 데이터와 달리, 오프체인 데이터를 온체인에서 활용하기 위해서는 데이터에 대한 신뢰성의 문제가 발생하게 됩니다. 따라서 오프체인 데이터를 탈중앙적이고 신뢰성 있는 방식으로 온체인으로 가져오기 위해서 다양한 오라클 업체들이 등장하였습니다. 해당 파트에서는 오라클 업체 중 가장 규모가 큰 Chain Link에 대해서 살펴보도록 하겠습니다.

Chainlink

앞서 설명드린 것처럼 오라클은 블록체인의 스마트 컨트랙트에 블록체인 외부의 데이터를 가져오기 위해 사용하는 블록체인 미들웨어 플랫폼입니다. Chainlink는 다음과 같이 오프체인 데이터와 블록체인 간의 다리 역할을 하는 노드 네트워크로 구성되어 있습니다.

이때 오프체인 데이터가 온체인에서 사용되기 위해서는 다음과 같은 과정을 거치게 됩니다.

(1) 데이터 요청

클라이언트가 데이터를 요청하면 클라이언트의 요구사항이 명시된 SLA Contract가 생성됩니다. 이때, SLA Contract의 매개변수에는 원하는 오라클의 수, 원하는 오라클의 평판, 요청되는 데이터 유형이 포함됩니다. 그리고 해당 SLA Contract는 Reputation Contract, Order-Matching Contract, Aggregating Contract 총 3개의 하위 컨트랙트를 생성합니다. 여기서 Reputation Contract의 경우, 오라클 제공자의 과거 기록(평판)을 확인해 제공 데이터의 진위 여부와 성과를 검증하는 역할을 수행합니다. 이를 위해서 Reputation Contract는 할당된 총 요청 수, 완료된 총 요청 수, 수락된 총 요청 수, 평균 응답 시간 및 총 위약금 지불 금액 등을 종합적으로 고려합니다.

(2) 입찰

클라이언트가 수동으로 오라클 제공자를 선택하는 경우가 아니라면 SLA를 Order-Matching Contract에 전달됩니다. 여러 Order 중에서 오라클 제공자들은 자신들의 서비스 성격과 능력을 기반으로 요청들을 모니터링해서 입찰에 참여 가능합니다. 이때, 오라클 제공자들은 입찰에 참여 시 일정량만큼의 $LINK를 스테이킹하여 부정 행위를 사전에 방지하게 됩니다. 충분한 자격을 갖춘 입찰을 받은 후 입찰 창이 종료되면, 입찰 풀에서 요청된 수만큼의 오라클 제공자들이 선정되고 이들은 해당 요청을 수행하게 됩니다.

(3) 데이터 수집

입찰이 완료되면 SLA Contract에 명시된 데이터를 노드(오라클 제공자)들이 오프체인에서 수집하여 Aggregating Contract에 전달합니다.

(4) 최종 검증

데이터가 전달된 이후 Aggregating Contract는 모든 응답을 기반으로 가중치를 계산한 후, 각 오라클의 응답의 유효성을 평가하여 Reputation Contract에 보고합니다. 이후 가중치가 적용된 답변이 호출된 SLA Contract에 반환되어 해당 계약이 기능을 실행하는 데 사용할 수 있게 되는 것입니다.

Web3 생태계에는 다양한 오프체인 데이터들이 필수적입니다. 온체인 보험 등과 같은 특정 스마트 컨트랙트들은 실행되기 위해서 신뢰할 수 있는 외부 데이터가 필요합니다. 이러한 정보는 오라클 서비스를 통해 제공되며, 이는 블록체인과 외부 세계 간의 상호작용을 원활하게 해줍니다. 앞으로 새로운 dAPP 및 Use Case 가 등장함에 따라 오라클 서비스에 대한 수요는 지속 증가할 것으로 보이며, 이미 거대한 네트워크를 구축한 Chainlink가 높은 점유율을 유지할 것으로 예상됩니다.

3.4. 데이터 거래 중개(마켓 플레이스)

Web3에서 데이터 마켓플레이스는 분산화된 네트워크에서 데이터를 구매하고 판매할 수 있는 플랫폼입니다. 기존의 중앙 집중식 데이터 마켓플레이스와는 달리, Web3 데이터 마켓플레이스는 블록체인과 스마트 컨트랙트 기술을 기반으로 합니다. 해당 영역에서 살펴볼 프로젝트는 Ocean Protocol입니다.

Ocean Protocol

Ocean Protocol은 블록체인 기반의 분산형 인공지능(AI)을 위한 데이터 자산 및 서비스 교환 프로토콜입니다. Ocean Protocol의 간단한 구현 원리를 살펴보자면 다음과 같습니다.

(1) 데이터를 가지고 있는 Alice가 자신의 데이터에 액세스할 수 있는 권한을 주는 Data Token (ERC-20) 발행
(2) Alice는 Ocean Market Place에 자신이 생각하는 가격($OCEAN)에 리스팅
(3) Bob은 $OCEAN으로 해당 Data Token 구매 후 Data Token을 Alice에게 전송하면 해당 데이터에 대한 엑세스 권한이 생김
(4) Compute-to-Data: 모델의 학습은 Kubernetes Pod 내에서 이루어지기 때문에 Alice의 데이터가 Bob에게 공개되지 않음

이렇듯 Ocean Protocol은 탈중앙적인 방식으로 데이터를 개인 혹은 단체간에 거래하는 것을 가능하게 만들고 있습니다. 데이터를 업로드하고 구매하는 주체 이외에도 Ocean Protocol에는 Ocean Data Curator라는 독특한 집단이 존재합니다. Ocean Protocol은 분산화된 시스템이기에 중앙위원회가 퀄리티를 평가할 수 없습니다. 이에 Ocean Protocol은 Ocean의 마켓플레이스에서의 활동 경험이 있는 모든 참여자가 큐레이터의 역할에 참여하여 데이터의 퀄리티에 대해 평가하는 방식을 운영하고 있습니다. Ocean Data Curator들은 잘못된 데이터를 제거하면 거에 따른 보상으로 OCEAN을 획득합니다. 해당 시스템을 통해 Ocean Protocol은 마켓플레이스에 업로드되는 데이터의 퀄리티를 관리하고 있습니다.

아직까지 Web3 데이터 마켓플레이스에 대한 수요는 높지 않습니다. 현재 Web3는 여러 기술적인 한계가 존재하는 초기 단계로, 블록체인의 확장성과 성능 문제, 사용자 경험의 개선 등의 문제 해결이 필요합니다. 데이터 마켓플레이스는 네트워크 효과에 의존하는데, 아직까지 이를 충분히 형성하지 못하였습니다. 사용자들이 충분한 수의 데이터를 제공하지 않는다면, 마켓 플레이스의 가치와 유용성이 제한될 수밖에 없습니다. 따라서 초기 단계에서는 이러한 네트워크 효과를 구축하기 위해 기존 데이터 공급자와의 협력이 필요할 수 있습니다.

4. 처리・가공

처리/가공 단계는 Raw 데이터로부터 실제 활용할 수 있는 형태로 가공하여 제공하고, 필요 시에는 가공한 데이터를 쓰기 좋게 저장해두는 단계입니다.

4.1. 인덱싱

The Graph

인덱싱은 블록체인에 저장된 데이터를 검색할 수 있도록 구조화하는 프로세스입니다. 앞에서 살펴본 RPC Node를 통해서는 스마트 컨트랙트에 이미 메소드로 정의된 단편적인 정보는 가져올 수 있습니다. 예를 들면, 특정 NFT의 소유자, tokenID의 URI 같은 정보입니다. 한편, 데이터의 Aggregation, 고급 필터링 등의 기능은 스마트 컨트랙트에서 직접 호출할 수 없기 때문에 인덱싱을 통해 데이터를 가져오는 작업이 필요합니다. 대표적인 The Graph는 블록체인 데이터 인덱싱 및 쿼리를 위한 분산형 프로토콜입니다. ‘Subgraph’라고 부르는 GraphQL API를 통해 쿼리 서비스를 제공하고 있습니다.

The Graph에 생태계 참여자는 Developer, Indexer, Curator, Delegator, User 로 구성됩니다. 먼저, Developer는 블록체인 데이터를 가져오기 위한 Subgraph를 생성합니다. 이 Subgraph는 블록체인 데이터를 어떻게 처리할 지 매핑 방식을 정의하는 코드입니다. Curator는 등록된 Subgraph들을 보고 우선적으로 처리되어야 할 Subgraph에 토큰을 스테이킹하며, 이 스테이킹 물량은 Indexer가 Subgraph를 선택하는데 있어서 시그널로 작용합니다. Indexer는 인덱싱할 Subgraph를 선택하며, Developer가 미리 정의하고 생성한 Subgraph를 학습합니다. 그리고 블록을 스캔하며 필요한 데이터가 있는지 확인하고 데이터를 쌓습니다. Indexer는 서비스에 대한 쿼리 수수료와 인덱싱 보상을 GRT 토큰으로 수취하며, 잘못된 데이터를 제공하는 경우 스테이킹된 GRT는 삭감됩니다. Delegator는 노드 운영에 직접 참여하지는 않고 Indexer에게 토큰을 위임하여 스테이킹 보상을 수취합니다. User는 쿼리 사용량에 따라 토큰을 지불하게 됩니다. dApp 등 온체인 데이터가 필요한 User들은 The Graph를 활용하여 직접 데이터 처리하는 것에 비해 훨씬 저렴한 비용으로 데이터를 쓸 수 있습니다.

The Graph의 Graph Explorer 화면 (Curation Signal가 큰 순서대로 정렬)
프로토콜에 참여하는 Indexer 별로 참여하고 있는 Subgraph, 보상 규모 등을 확인할 수 있다.

4.2. 탈중앙 데이터 웨어하우스

Space and time

데이터 웨어하우스는 비즈니스에 필요한 데이터를 미리 정의하여 모아두고, 해당 데이터가 필요한 시점에 보다 빠르고 편리하게 사용할 수 있도록 합니다. 현재도 많은 기업들이 사용하고 있는 데이터 웨어하우스가 있지만, Space and Time은 탈중앙화된 방식으로 온체인 데이터의 신뢰성, 불변성 등 중요한 특성을 유지할 수 있도록 합니다. 쉽게 설명해서, 온체인 데이터를 처리하여 기존의 데이터 웨어하우스에 저장해둔다면, 중앙화된 주체가 해당 데이터를 얼마든지 조작할 수 있기에 이를 검증하지 않고 다시 dAPP 에서 쓰기는 어려울 것입니다.

최초의 분산형 데이터 웨어하우스인 Space and Time은 인덱싱된 온체인 데이터, 오프체인 데이터를 결합 및 가공하고 스마트 컨트랙트와 dAPP, BI Tool, ML 모델 등에 활용할 수 있도록 연결합니다. 기존의 기업이 가지고 있는 오프체인 데이터는 AWS S3, HDFS, CSV Files, Fivetran, Airbyte 등 여러 소스 및 Tool로 부터 통합할 수 있습니다. Space and Time은 오라클인 Chainlink를 통해 쿼리 결과를 스마트 컨트랙트로 보내거나, 자체적으로 개발하고 있는 Proof of SQL을 통해 스마트컨트랙트에서 직접 쿼리할 수 있도록 합니다.

Space and Time이 강조하고 있는 Proof of SQL은 쿼리 계산이 정확히 수행되었고 쿼리와 데이터가 위변조 방지됨을 증명하는 방식입니다. 이 과정을 Client가 데이터를 업로드하고 쿼리하는 방식을 통해 개념적으로 살펴보겠습니다. 데이터를 웨어하우스에 업로드 할 때, Client는 Verifier에게 데이터를 먼저 제출합니다. 이 때 Verifier가 ‘Commitment’를 남긴 뒤, 데이터를 Prover, 즉 데이터 웨어하우스에 보냅니다. 새로운 데이터를 추가로 Append 할 때, Verifier는 기존의 Old Commitment를 새로운 데이터를 포함하여 업데이트하고, 데이터를 전달합니다. 즉, 데이터가 쌓일 때마다 Verifier가 들고있는 Commitment는 데이터 웨어하우스에 저장된 데이터 전체를 설명하는 정보를 가지고 있다고 할 수 있습니다. Client가 데이터를 쿼리할 경우, Verifier는 Prover에게 이 요청을 전달하게 됩니다. Prover가 쿼리를 파싱하고 올바른 결과를 연산한 뒤 이를 증명하는 Proof of SQL을 생성하게 됩니다. 쿼리 결과와 Proof of SQL를 Verifier에 전달하면, Verifier가 가지고 있던 Commitmemt를 통해 검증을 거치며 검증 완료 시 해당 데이터와 Success Flag를 Client에게 전달하게 됩니다.

5. 분석・모델링

온체인데이터 분석 플랫폼은 활발하게 성장 중인 영역으로, 다양한 기능으로 확장 및 통합되고, 타겟별 세분화된 서비스들이 등장하고 있습니다. 크게는 사용자가 원하는 데이터를 얼마나 자유로운 형태로 얻을 수 있는 지에 따라 구분할 수 있으며, 직접 데이터에 접근하여 데이터를 추출하고 대시보드를 만들 수 있도록 Customizable data를 제공하는 쿼리형 플랫폼이 있습니다. 온체인 데이터 분석가들이 많이 사용하는 Dune Analytics, Flipside Crypto, Crypto Quant, FootPrint Analytics 등이 해당합니다. 사용자가 직접 데이터를 생성할 수는 없지만 정의된 데이터를 쉽게 검색하고 시각화할 수 있도록 하는 Glassnode, Nansen, DefiLlama와 같은 플랫폼도 있습니다. 각각 차별적인 서비스를 제공하고 경쟁력을 확보하기 위한 시도가 이뤄지고 있습니다. CryptoQuant는 최근 드래그 앤 드롭 방식의 쿼리 서비스를 베타로 출시하였으며, Group by나 Join 등 비전문가가 활용하기 어려운 SQL 배경 지식 없이도 쉽게 데이터를 추출하고 가공할 수 있도록 합니다. Foot Print Analytics 는 Game, NFT, Social 등 프로토콜별 성장 추세를 트래킹할 수 있는 Growth Analysis를 제공하며, 트위터 디스코드 등 SNS 오프체인 데이터를 결합한 분석을 확대하고 있습니다.

Zettablock과 같은 Enterprise급 Full Stack 인프라도 등장하고 있습니다. 앞에서 다룬 인덱싱 뿐 아니라 온체인 데이터, 오프체인 데이터에 대한 엑세스, 데이터를 쉽게 결합하고 분석할 수 있는 간단한 API 엔드포인트를 제공합니다. SQL로 GraphQL API도 생성할 수 있으며, 이를 통해 개발자들이 애플리케이션에 데이터를 원활하게 연결할 수 있도록 합니다. Ethereum, Polygon, Polygon zkEVM, Arbitrum, Solana, Ripple, Bitcoin, BSC, zkSync 등 많은 메인넷을 지원하고 있으며, 오프체인 역시 여러 소스의 데이터를 통합할 수 있습니다. CSV 파일, MongoDB, PostgreSQL, Snowflake, Google BigQuery, Databricks, Amazon S3 뿐 아니라 MySQL와 Google Sheets 도 지원 예정입니다.

시각화 및 분석 플랫폼에 이어, 아직까지 초기 단계이긴 하지만 Web3 데이터를 AI 모델에까지 활용하려는 시도가 등장하고 있습니다. Spice AI 는 Web3 개발자를 위한 데이터 및 AI 인프라로, AI를 활용하는 앱을 쉽게 구축할 수 있도록 지원합니다. 현재는 Ethereum, Bitcoin, Polygon을 지원합니다. Python SDK를 통해 데이터를 가져오고, 기존의 Python 라이브러리를 통해 데이터를 분석하거나 ML/DL을 적용해 볼 수 있습니다.

Spice AI는 추후 다룰 대표적인 데이터 분석 커뮤니티 Kaggle에도 예시 Notebook을 제공하고 있습니다.
(참고: https://www.kaggle.com/code/phillipleblanc/spice-xyz-ethereum-tx-average-gas-prices/notebook)

이 외에 Web3와 AI를 결합하는 사례로는 SingulairytNET, Chain ML, Gensyn 등이 있습니다. SingularityNET은 블록체인 기반 AI 플랫폼으로, AI 모델을 생성, 공유, 수익화 가능합니다. 해당 플랫폼의 AI 프로그램을 이용하고 싶은 유저는 AGI 토큰으로 비용 지급하여 사용할 수 있습니다. Chain ML은 Web3 어플리케이션을 위한 AI 엔진과 End-to-End 솔루션을 제공합니다. Web3에서도 Credit Scoring, Risk Modeling, 개인화된 추천 등의 ML 모델이 필요하지만, 온체인에서는 ML을 위한 데이터 공간이나 컴퓨팅 파워가 부족한 상황입니다. 오프체인에서 학습한 모델을 사용하게 될 경우 위변조 문제에 직면할 수 있습니다. ChainML은 스마트컨트랙트나 dAPP이 ML모델을 쉽게 통합할 수 있도록 하며, 탈중앙화 네트워크로 비용 효율적인 GPU 컴퓨팅을 제공합니다. Gensyn도 AI를 위한 블록체인 기반의 컴퓨팅 리소스를 제공하는 업체로, 최근에 유명 VC인 a16z 리드 하에 4,300만 달러의 투자금을 유치받으며 주목을 받기도 했습니다. AI와의 결합 사례는 가시적인 성과나 명확한 제품이 나타나는 단계는 아니지만, 블록체인 기술과 Data를 AI에 활용하기 위한 움직임이 증가하고 있는 것은 분명합니다. 현재는 Web3 데이터의 분석이 활성화되는 단계이며, 이 과정을 거쳐 유의미한 결과들이 쌓이면 궁극에는 AI 모델을 학습시키고 활용할 수 있을 것입니다.

6. 활용

이처럼 살펴본 다양한 온/오프체인 데이터를 활용하여 다양한 서비스들이 만들어지고 있습니다. 블록체인 온체인 데이터를 분석하여 투자를 하는 것에 활용할 수도 있고, 스마트 컨트랙트 기능과 여러 데이터를 결합하여 프로세스를 자동화할 수도 있습니다. 해당 파트에서는 이처럼 온/오프체인 데이터를 활용한 블록체인 서비스들을 크게 NFT, Defi, 일반으로 분류하여 설명하겠습니다.

6.1. NFT

가장 먼저 NFT 분야에서의 데이터 활용 서비스들에 대해 알아보겠습니다. NFT의 거래 이력과 같은 온체인 데이터와 메타데이터와 같은 오프체인 데이터를 결합하여 NFT의 적정 가격을 산정하기 위한 많은 노력들이 있었습니다. 여기서 살펴본 프로젝트는 NFT의 거래 데이터에 ML을 결합하여 적정 가격을 평가하는 UPSHOT입니다.

UPSHOT

NFT 거래는 크게 다음과 같은 두 가지 문제점이 있습니다. 첫째, NFT는 거래량이 많지 않고 NFT마다 Trait이 다르기 때문에 정확한 가격 산정이 어렵습니다. 둘째, 이는 시장에 대한 진입장벽이 되고, NFT를 활용한 Defi에 방해요소가 됩니다. 따라서 NFT의 적정 가격을 산정하는 것은 매우 중요한 작업입니다. 지수 이동 평균(Exponentially-weighted moving average)과 같이 최근의 판매 이벤트에 더 큰 가중치가 부여하여 과거 판매 가격의 가중 평균을 계산하는 방식을 활용하여 NFT의 가격을 평가해볼 수도 있지만 오차의 범위가 크게 발생합니다. 아래 그림에서 크립토 펑크의 지수 이동 평균(Exponentially-weighted moving average)을 통한 예측 가격과 실제 가격은 41%의 Median Relative Error를 보이는 것을 발견할 수 있습니다.

따라서 이를 극복하기 위해 Upshot은 과거 거래 데이터 (온체인 데이터)와 NFT의 메타데이터(오프체인 데이터)로 인공지능 모델을 학습시켜 보다 정확한 가격을 예측합니다. 해당 과정은 다음과 같습니다.

(1) Multi-collection data assembly: 판매, 입찰, 매수 요청, 자산 데이터, 특성 및 컬렉션 데이터를 수집합니다. Reservoir, SimpleHash 및 기타 외부 데이터 제공 업체와 긴밀히 협력하여 수신한 데이터의 커버리지와 품질을 추가로 보장하려고 노력합니다.

(2) Feature extraction and data cleansing: 워싱 트레이딩 데이터를 제거하거나 최근 시장 활동 등과 관련한 Feature를 만들고 패턴을 찾습니다.

(3) ML Training: 이전 단계에서 엔지니어링 된 데이터와 과거에 판매된 NFT의 실제 거래 가격을 학습합니다. 이때 gradient-boosted tree ensemble 모델을 사용합니다.

(4) Prediction: 해당 방식을 통해 Median Relative Error을 14% 줄일 수 있습니다.

이처럼 정확한 가치 평가가 이루어지게 되면 이를 활용한 다양한 서비스들이 가능해집니다. 다음은 UPSHOT에서 제공하고 있는 활용 서비스들입니다.

(1) aggregator: NFT 가격 예측 서비스를 결합한 NFT 마켓 플레이스 aggregator를 제공합니다.

(2) Porfolio Tracker: 현재 내 지갑에 있는 NFT의 가치를 실시간으로 평가해주고 합산해서 알려주는 서비스입니다.

(3) Index: Upshot의 가격 예측 모델을 바탕으로 Yuga Index, PFP Index, Art Blocks Curated Index처럼 구매할 수 있는 Index 상품 제공하고 있습니다.

6.2. Defi

온체인 데이터를 활용한 Defi에서 발생하는 가장 큰 문제 중 하나는 overcollateralized lending으로 인한 자본 효율성의 저해입니다. 이처럼 Defi의 Lending이 overcollateralized될 수밖에 없는 이유는 아직까지 올바르게 신용 평가를 하기 힘들기 때문입니다. 따라서 이를 해결하기 위해서 등장한 프로젝트들 중 하나가 바로 Spectral입니다.

Spectral

Spectral은 MACRO (Multi-Asset Credit Risk Oracle) Score라는 것을 도입함으로써 온체인 신용 평가를 시도하고 있습니다. MACRO (Multi-Asset Credit Risk Oracle) Score는 다음의 5가지 주요 요소 반영해서 학습시킨 인공지능 모델을 통해 지갑의 신용 점수를 300(낮음)에서 850(높음)까지 평가합니다.

(1) Transaction history: 어떤 지갑과 트랜잭션 했는지, 얼마나 많은 ETH를 거래했는지, 어떤 종류의 거래를 했는지 등의 데이터입니다.

(2) Liquidation history: 과거에 얼마나 청산을 당했는지에 관한 데이터입니다.

(3) Amounts owed and repaid: 많이 빌리고 많이 갚을수록 긍정적으로 평가됩니다.

(4) Credit mix: 어떤 종류의 Defi Protocol들을 이용해왔는지를 반영합니다.

(5) Length of credit history: 지갑이 얼마나 오래된 지갑인지를 나타냅니다.

이처럼 지갑의 MACRO (Multi-Asset Credit Risk Oracle) Score를 산정하는 과정에서 Spectral은 다음과 같은 요소들을 담은 영지식 증명도 생성합니다.

  • 점수를 도출하기 위해 공개적으로 이용 가능한 블록체인 데이터 이외의 정보는 사용하지 않았음
  • 제안된 모델은 주어진 데이터셋에서 특정한 정확도를 달성함

이를 통해서 사용자들의 MACRO (Multi-Asset Credit Risk Oracle) Score에 대한 신뢰를 높일 수 있게 됩니다.

Spectral의 MACRO (Multi-Asset Credit Risk Oracle) Score는 여러 개의 지갑을 하나로 엮어서 통합된 점수를 평가받는 기능 또한 제공하고 있습니다. Spectral은 이를 Non-Fungible Credit (NFC)이라고 부르고 있습니다. 사용자는 인증 이후 자신이 소유하고 있는 여러 지갑들을 묶어서 하나의 Non-Fungible Credit (ERC721)로 만들고 이를 바탕으로 MACRO (Multi-Asset Credit Risk Oracle) Score 점수 산정 받을 수 있습니다. 즉, 내가 여러 개의 지갑을 사용하고 있어도 하나의 통합된 점수를 받아볼 수 있는 것입니다.

이러한 Spectral의 MACRO (Multi-Asset Credit Risk Oracle) Score를 활용한 다양한 Defi 서비스들이 등장하고 있습니다. 그 대표적인 것이 탈중앙 대출 프로토콜인 Teller입니다. Teller는 탈중앙 P2P 프로토콜인데 대출시에 아래 보시는 것과 같이 채무자의 MACRO (Multi-Asset Credit Risk Oracle) Score를 표기합니다. 즉, MACRO (Multi-Asset Credit Risk Oracle) Score가 높으면 대출을 더 좋은 조건으로 받을 수 있습니다.

이 이외에도 Soulbound Token으로 DID를 발급해주는 Quadrata에서 MACRO(Multi-Asset Credit Risk Oracle) Score 점수를 반영하여 DID를 발급해주는 사례도 있습니다.

6.3. 일반

마지막으로는 NFT와 Defi를 제외한 일반적인 활용 케이스들입니다. 온체인 예측 시장을 운영하는 Augur부터 onchain carbon credit을 거래할 수 있는 Nori와 같이 다양한 분야의 프로젝트들이 존재하지만 해당 부분에서 소개할 프로젝트는 스마트 컨트랙트 기반으로 보험으로 제공하고 있는 Arbol입니다.

Arbol

농사에는 날씨의 영향력이 절대적입니다. 따라서 농부의 입장에서는 어떤식으로 날씨 리스크를 헷징할 수 있을까라는 고민을 할 수밖에 없습니다. 밀과 같이 선물 시장이 존재하는 농산물의 경우는 선물 상품을 구매하는 것을 통해 리스크를 일정 부분 헷징할 수도 있지만 아닌 경우 또한 존재합니다. 2014년 밀 농사를 짓는 터키 농부가 바로 그 예라고 할 수 있습니다. 2014년에 터키는 가뭄으로 밀 생산량이 줄었지만, 전세계적인 생산량은 늘어서 시카고 거래소의 밀 선물 가격은 오히려 하락하였습니다. 즉, 터키의 농부는 2014년초에 밀 선물 거래 상품을 구매했어도 날씨 리스크를 헷징하는 것이 불가능했습니다.

여기에 더해서 대부분의 농산물들은 밀과 같이 선물 시장이 존재하지도 않습니다. 따라서 농부들은 매우 큰 날씨의 리스크를 지고 농사를 짓고 있는 것입니다. 현재 $1T에 달하는 농산물들이 보험 적용을 받지 못하고 있는 것으로 추산되고 있습니다.

Arbol은 이를 해결하기 위해 날씨 데이터(오프체인 데이터)를 기반으로 작동하는 온체인 보험을 농부들에게 제공하고 있습니다. 날씨 데이터는 Chainlink 노드들을 통해 제공 받고, 보험의 세부사항은 스마트 컨트랙트에 인코딩되며, AI underwriter을 통해 가격이 책정됩니다.

농부들은 예시적으로 다음과 같은 과정을 통해 보험에 가입하고 보험금을 수령 받습니다.

(1) 비가 20CM 이하로 오거나, 평균 날씨가 25도 이상과 같은 조건들을 설정

(2) Chainlink 오라클이 날씨를 관찰하다가 해당 조건이 충족됨

(3) 스마트 컨트랙트가 농부에게 자동으로 payout 지급

다음은 포도 농장들에게 실제로 제공하고 있는 보험의 예시입니다. 조건을 살펴보면 화씨 36도 이하로 떨어질 때마다 1도당 $125,000 달러가 지급되며 최대 $1M 지급되는 것을 확인할 수 있습니다.

이처럼 스마트 컨트랙트를 활용함으로써 Arbol은 보험에 접근하기 힘든 지역에 위치한 농부들도 보험을 구입할 수 있게 만들며, 해당 조건 시 복잡한 서류 절차 없이 바로 payout이 지급되는 것을 가능하게 만들었습니다.

이처럼 NFT, Defi, 일반 영역에서 블록체인 데이터를 활용하여 서비스를 제공하고 있는 여러 솔루션들에 대해서 살펴보았습니다. Arbol, Spectral과 같은 흥미로운 서비스들이 다수 존재하지만 아직까지는 Product-Market-Fit 을 찾지 못한 모습입니다. 그 이유는 첫째로, 솔루션들에 대한 진입장벽입니다. 해당 서비스들을 사용하기 위해서는 블록체인 기술에 대한 기본적인 이해가 필수적인데 아직까지 이러한 이해를 가지고 있는 소비자들은 많지 않습니다. 둘째, 해당 솔루션들의 완성도가 아직까지는 부족합니다. Web3 생태계가 아직 초기 단계이고 위와 같은 솔루션들이 개발되기 시작한지 오랜 시간이 지난 것은 아니기 때문에 사용자 관점에서의 사용성이 떨어지는 경우가 많습니다. 종합하자면 위와 같은 서비스들이 더욱 활성화되기 위해서는 결국 서비스의 완성도를 높이고 진입장벽을 낮춰 Web2 사용자들도 쉽게 사용할 수 있는 프로덕트를 만들 필요가 있습니다.

7. 커뮤니티

마지막으로 살펴볼 부분은 Web3 Data 커뮤니티입니다. 커뮤니티는 Web3 생태계의 핵심 요소로서, 멤버들이 서로의 경험과 지식을 공유하고 협력하여 새로운 아이디어와 프로젝트를 발전시키는 환경을 제공합니다. 이렇듯 탈중앙적인 방식으로 운영되는 커뮤니티를 중심으로 Web3 Data 생태계는 발전해왔습니다. Web2의 대표적인 데이터 커뮤니티로 Kaggle이 있듯이 Web3에도 다양한 데이터 관련된 커뮤니티들이 존재합니다. 가장 먼저 살펴볼 것은 Metrics DAO입니다.

Metrics DAO

Metrics DAO는 데이터 전문가들을 모아서 on-demand data analytics를 제공하는 DAO입니다. Web3 기업들이 데이터 분석가들에게 데이터 분석을 의뢰할 수 있는 플랫폼이 바로 Metrics DAO입니다. Metrics DAO는 Flipside Crypto의 인프라의 지원을 받고 있기 때문에, Flipside Crypto의 대시보드가 주로 사용되고 있습니다.

Metrics DAO의 플랫폼에 기업 혹은 단체는 $METRIC(Metrics DAO의 자체 토큰)과 Payment Token(과제에 대한 상금으로써 USDC, DAI, Flow 등 어떠한 토큰도 될 수 있음)을 걸고 과제(Challenge)를 개시할 수 있습니다. 과제(Challenge)가 게시되면 참가자들은 $rMERTIC을 락업하여 과제(Challenge)를 수행할 수 있습니다

($rMETRIC은 전송 불가능한 토큰으로 많이 보유하고 있을수록 데이터 분석 경험이 많다는 것을 의미하며, 과제(Challenge) 공고에 요구된 조건을 만족하지 못할시에 $rMERTIC이 슬래싱되고 성공시에는 보상으로 주어집니다).

과제 완료 이후 피어 리뷰를 위해 분석을 제출하면 리뷰어들이 $rMERTIC을 락업한 후 분석의 퀄리티를 결정하고 리커트 척도를 사용하여 점수를 매깁니다. 이때, 리뷰어가 되기 위해서는 지갑에 특정 badge를 소유하고 있어야하는데, 해당 badge를 얻기 위해서는 특정 개수 이상의 $rMERTIC을 보유하고 있어야 합니다 (리뷰어의 경우 정해진 시간 안에 정해진 양만큼의 리뷰를 하지 못하면 $rMERTIC이 슬래싱됩니다). 성공적으로 Challenge가 끝나면 참가자들은 Payment Token과 $rMERTIC을 받고, 리뷰어들은 $METRIC을 받게 됩니다.

Dune wizards & Flipside Gunslingers

다음으로 살펴볼 커뮤니티는 Dune wizards과 Flipside Gunslingers입니다. 이들은 각각 Dune과 Flipside에 모두가 열람할 수 있는 대시보드를 제작합니다. Dune과 Flipside의 핵심은 대시보드인데, 결국 그 핵심을 커뮤니티가 함께 만들어가는 구조인 것입니다.

그렇다면 이들은 어떠한 이유로 누구나 열람할 수 있는 대시보드를 만드는 것일까요? 이들이 이처럼 대시보드를 만드는 이유는 크게 두 가지로 구분할 수 있습니다. 첫번째는 사회적 이유입니다. Dune wizard들과 Flipside Gunslinger들은 사람들에게 유용한 대시보드를 제공함으로써 인정을 받고 효용감을 느낄 수 있습니다. 아래 그림에서 볼 수 있듯이 더 유용한 대시보드를 많이 만든 사람일수록 더 많은 별을 받게 됩니다.

두번째는 경제적 이유입니다. 대시보드를 잘 만들어서 유명해지게 되면 프로젝트들에서 자신들의 대시보드를 만들어달라고 의뢰하기도 합니다. 그 예로, 유명한 Web3 데이터분석가인 Hildobby는 Looksrare의 출시 전 간단한 대시보드 3개 만들어주는 대가로 수천달러를 받기도 하였습니다. 또, 각종 플랫폼의 Bounty에 참여하여 과제를 수행하고 보상을 받는 경우도 존재합니다.

Web3 생태계에서 생성되는 데이터의 양은 지속적으로 증가할 것으로 예상됩니다. 온체인 거래, Dapp 사용자 활동, 스마트 컨트랙트 실행 등이 다양한 데이터들이 생성될 것입니다. 이렇게 증가하는 데이터 양은 분석 커뮤니티에 더 많은 기회를 제공하고, 데이터 분석 역량의 중요성을 높일 것입니다. 특히, 탈중앙성을 중요하게 생각하는 Web3 데이터 생태계의 특성상, Dune과 Flipside과 같은 데이터 분석 커뮤니티의 중요성은 더욱 커질 것입니다.

8. Wrap up

이처럼 Web3 Data Landscape을 데이터의 Value-Chain 관점에서 정의하고 각 영역을 대표하는 여러 Tool과 서비스들에 대해서 살펴보았습니다. 아직까지 명확하게 정리되어 있지 않은 Web3 Data Landscape을 Data 활용 단계에 따라 이해하기 쉽도록 제시하였다는 의의가 있습니다. 해당 Landscape이 Web3 데이터를 활용하는데 가이드가 되고, 향후에는 이를 바탕으로 각 영역들에 대한 더욱 자세한 리서치 진행될 수 있기를 바랍니다.

Web3 데이터가 수집・저장되어 처리・가공되고 분석・모델링을 거쳐 활용되는 여러 사례들을 분석하면서 느낀 점은 다음과 같습니다.

  • 아직까지 Web3의 Data 생태계는 크게 활성화되지 못했음
  • Web3 Data기반의 새로운 비즈니스가 출현하고, End-to-End 플랫폼이 성장할 것

기존의 Web2 데이터 시장과 비교하면 Web3 데이터 생태계는 각 영역의 프로젝트 수나 퀄리티가 낮은 상황입니다. 이뿐만 아니라 해당 생태계를 구성하는 커뮤니티의 규모에도 큰 차이가 있었습니다.
Web3 데이터 생태계가 확장되기 위해서 고민해야 하는 지점은 두 가지라고 생각합니다. 첫번째로는 다양한 온/오프체인 데이터를 어떤 방식으로 활용할 것인가에 대한 명확한 비전이 있어야 합니다. Web2의 금융 데이터와는 달리 Web3는 사용자의 흩어져있는 여러 거래 데이터를 즉각적으로 분석하여 활용할 수 있다는 장점이 존재하지만, 아직까지 많은 유저를 확보한 서비스는 나오지 않은 상황입니다. Web3 데이터만의 장점을 살린 Killer Service들이 빠르게 출시되어야 Web3 데이터 생태계가 더욱 풍성해질 수 있습니다. 둘째, Web3와 Web2 데이터를 함께 분석하는 과정이 얼마나 심리스한지도 관건이라고 할 수 있습니다. 결국 모든 데이터가 블록체인에만 저장되어 있는 서비스는 없기 때문에 데이터를 이용하는 관점에서 각 영역의 데이터를 빠르고 편리하게 이용할 수 있어야 합니다.

블록체인은 데이터가 저장되는 방식 뿐 아니라 활용되는 방식을 변화시키는 기술입니다. Web3 시장이 성숙함에 따라 블록체인에 저장되는 데이터의 양은 폭발적으로 증가할 것이며, 양질의 데이터를 통한 가치 창출과 신규 BM이 나타날 것으로 기대합니다. 이 과정에서 데이터의 활용을 쉽고 편리하게 해주는 플랫폼은 더욱 성장할 것이며, 수집부터 활용까지 각 단계 뿐 아니라 사용자 수요에 맞추어 End-to-End 기능을 지향하는 데이터 플랫폼의 수요가 증가할 것입니다. Web3 Data와 AI 간의 Convergence가 어떻게 진화할 것인 지도 흥미롭게 지켜볼 만한 부분입니다.

Source

--

--