From Silos to Synergy : 웹3 데이터 파이프라인에 주목해야하는 이유

Jay : : FP
Four Pillars
Published in
25 min readJun 9, 2023

* 본 글을 포함한 다양한 리서치 아티클을 Four Pillars 공식 웹사이트에서 확인해보세요!

면책 조항: 본 글은 일반적인 정보 제공을 목적으로 작성되었으며, 법률, 사업, 투자 또는 세금 관련 조언을 제공하지 않습니다. 본 글을 기반으로 투자 결정을 내리거나 이를 회계, 법률, 세무 지침으로 사용해서는 안됩니다. 특정 자산이나 증권에 대한 언급은 정보 제공의 목적일 뿐, 투자에 대한 추천이 아님을 밝힙니다. 본 글에서 표현된 의견은 저자의 개인적인 의견이며, 관련된 기관, 조직 또는 개인의 견해를 반영하지 않을 수 있습니다. 본 글에 반영된 의견은 사전고지 없이 변경될 수 있음을 유의하십시오.

Author: Jay : : FP (@JayLovesPotato)

비트코인 백서가 공개된 이래로 우리는 신뢰라는 개념에 대해서 다시 한번 생각해볼 수 있었다. 신뢰할 필요가 없는(Trustless) 시스템이라는 개념으로써 정의가 확장되기 시작한 블록체인은 개인의 주권, 금융 민주화, 소유권 등 다양한 가치들이 기존의 시스템에 적용될 수 있다고 가정하며 빠르게 발전하고 있다. 물론, 기존의 다양한 시스템들이 가지고 있는 특징들에 비해 블록체인이 가지는 특징들은 다소 급진적이라고 느껴질 수 있는 까닭에, 아직까지 블록체인이 현실적으로 활용되기 위해서는 많은 검증과 토론의 시간이 필요할 지 모른다. 그럼에도 불구하고 우리가 웹3 산업에 기대하였던 저러한 가치들이 정말로 실현될 수 있는 방향으로 발전해나간다고 낙관적으로 조명해본다면, 블록체인의 스토리지에 포함되어 있는 귀중한 정보들을 분석할 수 있는 데이터 파이프라인의 구축은 기존에 없던 웹3 네이티브한 비즈니스 인텔리전스들을 관찰해볼 수 있음에 업계의 발전에 유의미한 또 하나의 티핑포인트가 될 여지가 충분하다.

본 아티클에서는 기존 IT 시장에서 일반적으로 통용되는 데이터 파이프라인의 구조를 웹3 컨텍스트에 프로젝션해본다. 이를 통해 웹3 네이티브한 데이터 파이프라인이 어떤 효용을 가질 수 있는 지, 그러한 효용을 달성하기 위해서는 어떤 도전과제들을 해결해야하는 지, 그리고 업계에는 어떠한 함의점들을 남길 수 있는 지 논의해본다.

1. Singularity Comes from Informatic Innovation

“인간이 다른 동물들보다 우월한 점은 인간이 복합적인 소리를 생각과 결부시키는 무한한 능력을 가지고 있다는 사실이다.”

— 찰스 다윈

역사적으로 인류 문명 발전의 특이점은 늘상 정보 공급의 혁신과 함께 해왔다. 인류의 조상들은 소리와 몸짓 등의 언어, 그리고 필사 혹은 그림의 기록 등을 통해 다른 종들로부터 생존 우위를 지켜낼 수 있었다. 문자와 종이, 그리고 목판 인쇄술의 발명은 인류가 문명을 고도화하는 데에 상당한 기여를 하였고, 구텐베르그의 성경 등 금속 활자 기술의 보급은 정보의 대량 축적 및 전달을 가능케하여 종교 개혁 및 시민 혁명, 나아가 과학 발전의 시작에 지대한 영향을 끼쳤다. 2000년대에 이르러서는 컴퓨터와 인터넷을 통한 연산과 통신, 그리고 데이터를 디지털의 형태로 수집/가공할 수 있는 기술들이 눈부시게 발전함에 따라 인간의 행동을 더욱 깊이 이해할 수 있게 되었다. 오늘날 대부분의 현대인들은 디지털 정보를 기반으로 다양한 의사결정을 하도록 생활양식 자체가 바뀌고 있으며, 이에 우리는 현대사회를 ‘IT 혁신시대’ 라고 부르기도 한다.

인터넷이 본격 상용화된 지 불과 20여년 만인 현재, GPT 모델이 또다시 세상을 깜짝 놀라게 하고 있다. 인력을 대체할만한 서비스 수준의 수많은 의사결정용 어플리케이션이 등장하며, 많은 사람들이 AI가 바꾸어나갈 문명에 대해서 논하고 있다. 심지어 어떤 이는 어떻게 이렇게 빠르게 우리의 사회 근간을 흔들 수 있는 기술이 나올 수 있냐며 현실 부정(in denial) 상태에 있기도 하다. 시간의 흐름에 따라 반도체의 성능이 지수적으로 증가한다는 ‘무어의 법칙’이 있다고는 하지만, GPT의 등장으로 인한 변화들을 당장 마주하기에는 너무나도 급작스럽다.

그런데 흥미로운 것은, GPT 모델 자체가 사실 그리 획기적인 아키텍처는 아니라는 것이다. AI 업계는 되려, 1) 많은 고객층을 타게팅할 수 있는 비즈니스 영역의 정의, 그리고 데이터를 소싱하는 것부터 최종 결과물이 나오고 그것을 피드백하여 기존 모델을 고도화 하는 여정, 즉 2) ’데이터 파이프라인’ 을 통한 모델 튜닝작업을 GPT 모델의 주요 성공 요인으로 꼽는다. 요컨대, GPT 기반의 어플리케이션들은 서비스 제공의 목적을 비즈니스 영역에 따라 더욱 섬세하게 세분화하고, 그에 따라 데이터/정보 가공의 프로세스를 고도화를 하여 혁신을 이뤄낸 것이다.

2. Data-Driven Decisions Everywhere

우리가 혁신이라고 부르는 것들의 대부분은 사실 우연이나 직관에 기반하기보다는 축적된 데이터의 가공에 기반한다. ‘자본주의 시장에서는 강한 놈이 살아남는 것이 아닌, 살아남는 놈이 강한 것이다.’ 라는 말이 시사하듯, 오늘날의 기업들은 무한 경쟁의 포화 시장에 몰리고 있다. 이에, 기업들은 자그마한 틈새라도 포착하기위해 눈에 불을 켜고 온갖 데이터를 모으고 분석한다.

어쩌면 우리는 슘페터의 ‘창조적 파괴’ 라는 단어에 잘못된 방법으로 사로잡힌 나머지, 직관을 중요시 여기고 데이터와 정보에 기반한 의사결정의 중요성을 간과하고 있는 지도 모른다. 그런데 조금만 더 생각해보면, 사실 훌륭한 직관도 결국에는 개인의 축적된 데이터 및 정보의 산물이긴하다. 디지털 세상은 앞으로 더욱 깊이 우리의 삶에 침투할 것이고, 점점 더 민감한 정보들이 디지털 데이터의 형태로 보여질 것이다.

웹3 시장은 이용자들로하여금 ‘데이터의 주권은 누구에게 있는가’ 라는 물음을 던지며 큰 주목을 받아왔다. 그런데 막상 현재의 웹3 산업의 인프라 역할을 하는 블록체인 씬에서는, 실질적으로 사람들의 데이터를 다루는 정보과학의 방법론에 관한 논의보다는 탈중앙성이나 확장성 개선 등과 같이 트릴레마의 해결 따위에 논의가 집중되는 경향이 많이 관찰된다. 현실 사회에 새로운 기술이 융화되는데에 설득력을 갖추기 위해서는 다양한 어플리케이션과 인텔리전스들을 끌어내는 노력이 무엇보다 중요하다 — 우리는 2010년 인근부터 빅데이터 처리 및 데이터 파이프라인을 구축할 수 있는 방법론들이 비약적으로 발전함에 따라 범산업적으로 혁신적인 인텔리전스가 쏟아져나오는 현상을 이미 관찰하였다. 웹3 컨텍스트에서도 데이터 기반의 인텔리전스가 나올 수 있도록 데이터 플로우 시스템을 구축하여 업계의 발전을 도모하는 노력이 반드시 필요하다.

3. Opportunities for On-Chain Data Flow

그렇다면, 우리는 웹3 네이티브한 데이터 플로우 시스템으로부터 어떤 기회를 포착할 수 있고, 그 기회를 잡기 위해 어떤 과제들을 해결해야할까?

3.1 Pros

웹3 네이티브한 데이터 플로우를 구성함으로써 얻을 수 있는 가치를 한 문장으로 요약하면 — 온체인 데이터 파이프라인을 통해 신뢰(Reliable)할 수 있는 데이터를 여러 주체에게 안전(Safe)하게 유통하여 인사이트를 효과적으로 추출해낼 수 있다는 것이다.

  • Data Redundancy — 프로토콜 네트워크들은 여러 노드에 걸쳐 데이터 조각들을 저장하기 때문에, 온체인 데이터들은 유실에 대한 리스크가 덜하며 복원력이 좋다.
  • Data Security — 온체인 상의 데이터는 분산화된 노드들로부터 검증/합의를 통해서 완결된 데이터이다. 하여, 제3자가 해당 데이터를 위변조하기위해서는 많은 비용이 든다.
  • Data Sovereignty — 데이터 주권은 이용자가 자신의 데이터를 통제하고 유지할 수 있는 권리를 의미한다. 온체인 상에서 모든 데이터의 흐름을 관찰할 수 있음에 이용자는 합법적이거나 적절한 접근이 필요한 대상과만 데이터를 공유 및 제어할 수 있다.
  • Permissionless & Transparent — 온체인 데이터 플로우는 누구나 접근가능하고 확인할 수 있다. 따라서 가공되는 과정에서의 데이터들 역시 신뢰성을 갖게 된다.
  • Stable Operation — 데이터 파이프라인이 분산화된 환경의 프로토콜들에 의해 구성되면, 단일 실패지점이 없음에 각 티어들이 다운타임에 노출되는 확률이 현저히 줄어든다.

3.2 Use Cases

신뢰는 본질적으로 다양한 주체들이 서로 상호작용을 하고 의사결정을 하는데에 있어서 가장 기본적인 근거이다. 따라서 신뢰할 수 있는 데이터를 안전하게 유통할 수 있다는 것은, 다양한 주체들이 참여하는 웹3 서비스 상에서 데이터를 통해 수많은 상호작용과 의사결정이 이루어져 사회적 자본을 극대화시킬 수 있는 수단이 만들어진다는 의미이다. 다음은 온체인 데이터들을 활용해볼 수 있는 여러 유스케이스들이다.

3.2.1 Application for Service / Protocol

  • Automated Rule-Based Decision Making System — 프로토콜들은 서비스의 상태(status)를 안정시켜 이용자들에게 최고의 경험을 선사하기 위해, 서비스 운영에 핵심적인 파라미터들을 주기적으로 조정한다. 하지만, 프로토콜의 입장에서 항상 서비스의 상태를 모니터링하며 적시에 동적인 대응을 하는 것은 쉽지 않다. 이에, 온체인 데이터 파이프라인을 통해 실시간으로 서비스의 상태를 분석하고 서비스의 요구수준(SLA)에 맞는 최적의 파라미터 셋을 동적으로 제안할 수 있다.
    (e.g., 렌딩 프로토콜을 위한 자동화된 변동금리 매커니즘 적용)
  • Credit Market — 기존 금융 시장에서 신용은 한 개인의 지급능력을 측정하기 위한 용도로 사용되며 시장효율성을 높여 왔다. 하지만 웹3 시장에서는 아직까지 신용에 대한 정의가 불분명하다. 개별 계정에 대해 접근가능한 데이터가 희소하며, 업계 전반에 데이터 거버넌스가 부재하다보니 각종 정보들을 통합/취합하기가 어렵기 때문이다. 이에, 파편화되어 있는 온체인 데이터들을 수집하고 가공하는 프로세스를 구축함으로써 웹3 시장의 신용 시장을 새로이 정의할 수 있다.
    (e.g., MACRO (Multi-Asset Credit Risk Oracle) Score by Spectral)
  • Decentralized Social & NFT Expansion — 탈중앙화 사회는 사용자 제어, 개인정보 보호, 검열 저항, 그리고 커뮤니티 거버넌스를 우선시하며 기존 사회의 대안적 패러다임을 제시하고 있다. 이에 활용되는 여러 메타데이터들이 더욱 원활히(seamlessly) 제어/갱신되고 플랫폼 간의 마이그레이션이 용이할 수 있도록 파이프라인이 구축될 수 있다.
  • Fraud Detection — 정확한 프로토콜에 맞게 작동하는 스마트 컨트랙트를 채택하는 웹3 서비스의 경우, 컨트랙트 코드의 허점을 통해 이용자의 효용을 떨어뜨리는 자금탈취 / 해킹 / 디페깅 / 유동성 공격 등의 악의적인 행위가 종종 관찰된다. 이러한 사례들을 사전에 미리 탐지할 수 있는 체계를 만들어 신속한 대응책을 준비할 수 있다.

3.2.2 Collaboration & Governance Initiatives

  • Fully On-Chain DAOs — 탈중앙화된 자율 조직을 뜻하는 DAO들이 거버넌스 및 공공 자금을 실질적으로 집행하는 데에 있어, 많은 부분을 오프체인 툴링에 의존하고 있다. 온체인 데이터 처리 플로우를 구축하여 DAO 운영에 있어서 투명한 프로세스를 구성한다면 DAO의 웹3 네이티브한 가치들을 더욱 강화시킬 수 있다.
  • Mitigating Governance Fatigue — 웹3 내 프로토콜들의 의사결정은 커뮤니티 거버넌스를 통해 진행되는 경우가 많다. 하지만 지역적 장벽, 모니터링에 대한 압박, 거버넌스에 필요한 전문성의 부재, 불특정 시간대에 올라오는 거버넌스 안건, 그리고 불편한 UX 등 수많은 요인으로 인하여 참여자들은 의사결정 피로를 느끼고 거버넌스에 저조한 참여율을 보인다. 데이터 파이프라인의 구축을 통해 참여자들로 하여금 개별 거버넌스 안건들에 대한 이해(Digestion)부터 실제 집행(Implementation) 까지의 가공 과정을 단순화시켜줄 수 있는 툴이 만들어질 수 있다면 프로토콜 거버넌스 프레임워크는 더욱 효율/효과적으로 작동할 수 있다.
  • Open Data Platform for Collaborative Works — 기존 산학계에서는 영리 혹은 다양한 목적으로 많은 데이터나 연구자료들이 공개가 되어 있지 않은데, 이는 전체적으로 보았을 때 시장의 발전을 매우 비효율적으로 만든다. 온체인 데이터 풀은 투명하고 누구나 접근가능하다는 점에서 기존의 시장에 비해 더욱 협업 이니셔티브를 촉진시킬 수 있다. 수많은 토큰 규격 및 디파이 솔루션의 발전은 이를 반영하는 좋은 사례들이며 이외에도 우리는 다양한 목적에 맞는 공공 데이터 풀을 운영할 수 있다.

3.2.3 Network Diagnosis

  • Index Research — 많은 웹3 유저들이 프로토콜의 상태를 분석하고 비교하기 위해서 다양한 지표들을 만든다. 온체인 데이터를 통해 참고할만한 여러 객관적인 인덱스들이 연구되어 실시간으로 전시될 수 있다.
    (e.g., Nakamoto Coefficients by Nakaflow)
  • Protocol Metrics — 네트워크 내의 활성주소 수, 트랜잭션 수, 자산 인플로우/아웃플로우, 그리고 발생한 수수료 등의 데이터를 가공하여 프로토콜의 지표들을 진단할 수 있다. 이를 통해 프로토콜의 특정 업데이트 효과, MEV 현황, 그리고 네트워크의 건강 상태 등을 확인해볼 수 있다.
    (e.g., Post-Shanghai: What Really Happened by Glassnode)

3.3 Challenges

온체인 데이터만의 특별한 장점들, 그리고 파편화되어 있는 온체인 정보들을 잘 엮음으로써 산업의 가치를 증대시킬 수 있는 (잠재적인) 유스케이스들을 살펴보았다. 하지만, 이들이 실질적으로 잘 동작하기 위해서는 산업 내외적으로 다음 과제들 중 많은 부분들에 대한 해결이 전제되어야 한다.

  • Absence of Data Governance — 데이터 거버넌스란, 각 데이터 프리미티브들의 통합이 용이할 수 있도록 일관되고 공유된 데이터 정책 및 표준을 정립하는 것이다. 현재 온체인 속 각 프로토콜들은 각자만의 표준을 정립하고 저마다의 데이터 타입을 반환하고 있는데, 문제는 이러한 프로토콜 데이터들을 집계하여 유저들에게 API 서비스를 제공하는 주체들 간에 데이터 거버넌스가 부재하다는 것이다. 이는 각 서비스들 간의 통합을 어렵게하고, 결과적으로 유저들로 하여금 신뢰성있고 종합적인(Comprehensive) 인사이트를 관찰하기 어렵게 한다.
  • Cost Inefficiency — 프로토콜에 콜드 데이터를 저장하는 경우, 이용자는 중앙화된 서버를 계속해서 운영할 필요가 없으며, 그 과정에서 필요한 데이터 보안에 대한 비용역시 감소시킬 수 있다. 하지만 데이터 분석을 위해 자주 액세스되어야하고, 많은(frequent) 연산 및 프로세싱 작업이 필요한 핫 데이터의 성격을 띄는 데이터를 다뤄야하는 경우, 온체인 데이터 파이프라인의 채택은 비용효율적이지 않을 수 있다.
  • Oracle Problem — 스마트 컨트랙트의 잠재적인 유스케이스들이 실현되기 위해서는 본질적으로 블록체인과 현실 세계 간의 데이터 중개가 필요하다. 하지만 합의 알고리듬 등을 통해 무결성을 유지하는 블록체인과 달리, 외부 데이터들은 결정론적이지 않다. 오라클 솔루션은 특정 어플리케이션 계층에 의존성을 부여하지 않으면서 외부 데이터들의 무결성, 품질, 그리고 확장성을 보장할 수 있도록 더욱 발전해야 한다.
  • Protocols are Nascent — 프로토콜들은 자체 토큰을 서비스가 지속되도록 하는 인센티브이자 서비스를 사용하기 위한 거래 수단으로 채택한다. 하지만 서비스 이용주체에 대한 정확한 정의부터 인센티브 스킴까지, 프로토콜을 운영하는데에 있어서 필요한 파라미터들은 모두 나이브하게 관리되고 있다. 따라서 우리는 그 어느 프로토콜이라 할 지라도 해당 프로토콜의 경제의 지속가능성에 대해 검증이 되지 않았다고 판단할 수 있다. 만약 많은 프로토콜들이 유기적으로 연결되어서 데이터 파이프라인을 만든다고하면 해당 파이프라인이 잘 작동할 수 있을 지에 대한 불확실성은 더욱 배가될 것이다.
  • Slow Data Retrieving Time — 프로토콜들은 일반적으로 많은 노드의 합의를 통해 트랜잭션이 처리되어 데이터가 반환된다. 따라서 기존 IT 비즈니스로직에 비해 정보가 가공될 수 있는 속도와 양이 제한적일 수 있다. 이러한 종류의 바틀넥은 파이프라인을 이루는 각 프로토콜들의 성능이 모두 대폭 개선되지 않는 이상 해결되기 어렵다.
  • True Value of Web3 Data — 블록체인은 고립된 시스템으로, 현실 세계 속 데이터들을 포함하여 아직까지 다양한 종류의 데이터들이 흐르고 있지 않다. 데이터 파이프라인을 구축하는 비용을 지불할만큼, 웹3에서 수집하는 데이터들이 충분히 유의미한 인사이트를 반환할 수 있는 지에 대해서도 고찰해보아야 할 것이다.
  • Unfamiliar Grammar — 기존 IT 데이터 인프라와 블록체인 인프라의 작동방식은 매우 상이하다. 프로그래밍 언어의 경우에도, 프로토콜의 기질과 일치하여 저수준의 언어 혹은 새로운 언어를 채택하는 경우도 많다. 따라서 신규 개발자나 서비스 이용자들은 각 데이터 프리미티브를 다루고 상호작용하는 데에 러닝커브가 존재한다.

4. Pipelining Web3 Data Legos

현재 대부분의 웹3 데이터 인프라 솔루션들은 서로 이어져서 정보 가공의 시너지를 실험해보기보다는 독립적으로 데이터들을 추출/가공한 뒤 정보를 반환하고 있다. 이에, 일반적으로 기존 IT 시장에서 통용되는 데이터 파이프라인을 간략히 소개하고 현존하는 웹3 데이터 프리미티브들을 해당 파이프라인에 프로젝션해봄으로써 유스케이스 시나리오들을 한층 더 구체화해본다.

4.1 General Data Pipeline

데이터 파이프라인을 구축하는 것은 사실 여느 일상생활에서 반복되는 의사결정과정을 개념화한 것과 비슷하다고 할 수 있다. 데이터 파이프라인을 구축함으로써, 사람들은 일정한 품질의 필요한 정보들을 언제든지 받아 의사결정에 활용할 수 있다. 처리해야할 비정형데이터가 많을수록, 더욱 자주 활용해야하는 정보들일수록, 혹은 실시간으로 분석이 필요할수록 이 일련의 과정들을 자동화시켜놓으면 추후 의사결정에 필요한 이니셔티브를 획득함에 있어 상당한 시간과 비용을 줄일 수 있을 것이다.

위 그림은 기존 IT 인프라 시장에서 데이터 파이프라인을 구축할 때 일반적으로 활용되는 아키텍처를 추상화한 것이다 — 분석 목적에 적합한 데이터들은 올바른 데이터 소스로부터 수집되고, 데이터의 특성(nature) 및 분석 요구 사항(analytical requirements)에 따라 적절한 스토리지 솔루션에 저장된다(예를 들어, 데이터 레이크는 확장 가능하고 유연한 분석을 위해 원시데이터에 대한 스토리지 솔루션을 제공하는 반면, 데이터 웨어하우스는 특정 비즈니스 로직에 최적화된 쿼리 및 분석을 위해 구조화된 데이터를 저장하는 것에 중점을 둔다.). 이후, 해당 데이터들은 다양한 방식의 인사이트로 도출되거나 실질적으로 활용되기 위한 정보로 가공된다.

각 티어의 솔루션들은 여러 방식으로 엮어 패키지된 서비스의 형태로 제공되기도 하는데, 데이터 추출부터 적재까지 일련의 과정들을 엮은 ETL(Extraction, Transformation, Loading) SAAS 제품군도 점점 더 큰 주목을 받고 있다(e.g., FiveTran, Panoply, Hivo, Rivery). 순서가 꼭 단방향인 것은 아니며, 데이터 파이프라인의 구축 목적에 따라 다양한 경로로 데이터가 흐를 수 있다. 실질적으로 파이프라인을 구축할 때 가장 유의해야할 점은 데이터가 각 티어의 서버로 송/수신될 때 발생할 수 있는 데이터 유실의 리스크를 최소화하기 위해 서버들의 디커플링 정도를 최적화하는 것이다.

4.2 Projection Pipelines with On-Chain Context

앞서 소개한 데이터 파이프라인의 개념도를 온체인 컨텍스트에 적용하면 위와 같다. 각 프리미티브마다 어느 정도 중앙화된 오프체인 솔루션에 의존할 수 있기 때문에 완벽히 탈중앙적인 파이프라인은 구성될 수 없음은 인정해야 한다. 또한 위 그림은 현재 모든 웹3 솔루션들을 포함하고 있지는 않으며, 분류 체계의 경계가 모호할 수 있다 — 예를 들어, KYVE는 Streaming Platform 뿐만 아니라 데이터 레이크의 기능도 포함하며, 데이터 파이프라인 그 자체로도 볼 수 있다. 또한 Space and Time은 Decentralized Database로 분류하였지만 RestAPI 및 스트리밍 등 API 게이트웨이 서비스들을 제공할 뿐만 아니라, ETL 서비스 또한 제공한다. 이런 한계점들을 감안해서 위 분류 체계를 살펴본다.

4.2.1 CAPTURE / PROCESS

일반 사용자 혹은 dApp이 서비스를 효율적으로 운영/활용하기 위해서는 프로토콜 내 트랜잭션, 상태 및 로그 이벤트 등 1차적으로 생성되는 데이터 소스들에 대한 식별 및 액세스가 용이해야한다. 이 단계는 그러한 과정을 도울 수 있는, 일종의 미들웨어의 역할이 수행되는 단계이며 오라클, 메시징, 인증 및 API 관리 등이 포함된다. 주요 솔루션들을 분류하면 아래와 같다.

Streaming / Indexing Platform

  • Bitquery, Ceramic, KYVE, Lens, Streamr Network, The Graph, 각 프로토콜의 Block Explorer 등

Node as a Service & Other RPC/API Service

  • Alchemy, All that Node, Infura, Pocket Network, Quicknode 등

Oracle

  • API3, Band Protocol, Chainlink, Nest Protocol, Pyth, SupraOracles 등

4.2.2 STORE

웹2의 스토리지 솔루션들과 비교하여 웹3의 스토리지 솔루션들이 가지는 주요 특징 중 하나는 데이터가 영속성*을 가질 수 있다는 것이지만, 이에 대한 반대급부로 데이터들을 온체인 상에 저장하는데에는 높은 비용이 든다는 치명적인 단점이 존재해왔다. 더욱이, 단순히 저장을 넘어 데이터들이 실질적으로 활용되기 위해서는 잦은 업데이트 및 쿼리가 용이해야하지만, 기존의 스토리지 솔루션들은 이러한 특징들을 감당하기에는 적합하지 않아왔다. 이에, 웹3 네이티브한 특성과 함께 구조화되고 동적인 데이터의 처리를 가능케하는 다양한 솔루션들이 등장하게 되었다 — 솔루션마다 처리하는 데이터의 타입, 구조화 여부, 내장된 쿼리 기능의 유무 등의 특징들이 상이하다.

Decentralized Storage Network

  • Arweave, Filecoin, KYVE, Sia, Storj 등

Decentralized Database

  • Arweave-Based Databases(Glacier, HollowDB, Kwil, WeaveDB), ComposeDB, OrbitDB, Polybase, Space and Time, Tableland 등

*프로토콜마다 영구적인 저장의 유무 및 매커니즘이 상이하다. 예를 들어 Arweave는 이더리움 스토리지와 같이 블록체인 베이스의 모델로, 온체인 상에 데이터를 영구적으로 저장하지만 Filecoin, Sia, Storj 은 컨트랙트 베이스의 모델로 오프체인 상에 데이터를 저장한다.

4.2.3 TRANSFORM

스토리지 솔루션만큼이나 웹3 컨텍스트에서 가장 활용 가능성이 뛰어날 것으로 기대되는 영역(tier)도 연산 영역이다. 블록체인의 구조는 기본적으로 분산화된 노드의 집합체이기때문에 수평 확장(Scale-Out)의 백엔드 로직을 구현함에 있어 구조적으로 이점이 있기 때문이다. AI 업계에서도 이러한 이점을 활용하여 연합학습(Federated Learning)* 영역을 개척해보려는 노력이 활발히 이루어지고 있으며, 아예 머신러닝 및 AI 연산에 특화된 프로토콜들도 등장하고 있다.

Data Training / Modeling / Computation

  • Akash, Bacalhau, Bittensor, Gensyn, Golem, Together 등

*연합학습이란, 다수의 로컬 클라이언트 상에 인공지능 모델을 분산시키고 저장된 데이터에 대하여 학습시킨 뒤, 학습된 파라미터들을 중앙 서버로 전송하여 취합하는 학습 방법이다.

4.2.4 ANALYZE / USE

아래 Dashboard 및 Analytics 솔루션들은 누구나 프로토콜들에서 일어나는 모든 이벤트들을 확대관찰하여 다양한 인사이트를 습득/도출해낼 수 있는 플랫폼들이다. 이 중 일부는 최종 결과물들에 대한 API 서비스를 제공하기도 한다. 유의해야할 점은, 대부분의 솔루션들은 별도의 오프체인 툴들을 채택하여 데이터를 저장하고 가공하기 때문에 데이터 자체가 다소 부정확하고, 솔루션들 간의 데이터 오차 역시 많이 관찰될 수 있다는 점이다.

한편, Google Cloud와 같은 중앙화 플랫폼에서 특정 비즈니스 로직을 트리거/실행해주듯이 웹3 컨텍스트에도 스마트 컨트랙트에 대한 실행을 자동화/트리거해주는 ‘Web3 Functions’ 이라는 플랫폼이 존재한다. 이 플랫폼을 활용하면 온체인 데이터의 가공을 통해 단순히 인사이트를 도출하는 것을 넘어 비즈니스 로직까지 웹3 네이티브한 방식으로 구현할 수 있다.

Dashboard Service

  • Dune Analytics, Flipside Crypto, Footprint, Transpose 등

Insights & Analytics for End Users

  • Chainalaysis, Glassnode, Messari, Nansen, The Tie, Token Terminal 등

Web3 Functions

  • Chainlink’s Functions, Gelato Network 등

5. Final Thoughts

( Critique of Pure Reason by Immanuel Kant | Wikipedia )

칸트의 주장처럼, 우리는 사물의 현상만을 목격할 뿐 그 본질은 알 수 없을 지도 모른다. 그럼에도 불구하고, 우리는 ‘데이터(Data)’라고하는 관찰 기록들을 정보와 지식으로 가공해오며 인류 진보의 재료로 활용하고 있고, 정보 유통의 혁신이 문명을 얼마나 발전시킬 수 있는 지를 관찰해왔다. 따라서 탈중앙성이라는 특징과 더불어 다양한 가치들을 영위할 것으로 기대되는 웹3 시장에서도, 데이터 파이프라인의 구축은 그러한 기회를 실질적으로 포착할 수 있는 시작점의 역할을 할 수 있을 것으로 믿어 의심치 않는다. 본 아티클을 마무리하며 마지막 생각들을 남겨본다.

5.1 Storage Solutions’ Role Will Become More Important

데이터 파이프라인이 갖춰지기 위해서 가장 선결돼야하는 것은 데이터 및 API의 거버넌스가 확립이 되는 것이다. 점점 더 다원화되는 생태계 속에서 각 프로토콜들이 만드는 규격은 계속해서 새로이 생겨날 것이고, 멀티체인 생태계를 통해 파편화되는 트랜잭션 내역들은 개인으로하여금 통합된 인사이트를 도출하기 더욱 어렵도록 할 것이다. 그렇다면, 이렇게 파편화된 정보들을 모으고 각 프로토콜의 규격들을 최신으로 갱신하여 통합된 형식의 데이터를 가장 잘 제공할 수 있는 주체는 ‘스토리지 솔루션’ 이다. 우리는 기존 시장에서 Snowflake나 Databricks와 같은 스토리지 솔루션이 빠르게 고객군들을 모아 성장하고, 파이프라인 상의 다양한 티어들을 영위하며 수직적 통합(Vertical Integration)을 성공적으로 이루어내며 업계를 선도하는 것을 관찰하였다.

5.2 Opportunities in the Data Sourcing Market

데이터에 대한 접근성이 완화되고 해당 데이터들이 가공되는 프로세스가 발전하여 성공적인 유스케이스들이 등장하기 시작하면, 데이터 수집 수단이 폭발적으로 등장하는 플라이휠이 만들어질 수 있다 — 2010년대 이후 데이터 파이프라인 구축 관련 기술이 크게 발전하면서 2025년에는 약 150 zettabytes의 데이터 분석이 필요할 것이라고 예측될만큼, 해마다 수집되는 디지털 데이터의 타입과 양은 비약적으로 증가하고 있다. 이러한 맥락을 웹3 시장에도 적용시켜보면 온체인 상에서도 재귀적으로 추후 많은 데이터 소스들이 창출될 수 있는 것이다. 이는 블록체인의 다양한 사업 섹터로의 확대를 의미하기도 하는데, 이 시점에 도달하면 스토리지 솔루션뿐만 아니라 Ocean Protocol과 같은 데이터 마켓, 혹은 Helium 및 XNET 등과 같은 DeWi(Decentralized Wireless) 솔루션을 통해 여러 종류의 데이터 소싱이 고도화되는 것을 기대해볼 수도 있을 것이다.

5.3 All That Matter Is Meaningful Analytics with Meaningful Data

하지만 근본적으로 가장 중요한 것은, 정말로 필요한 인사이트를 뽑아내기 위해 어떤 데이터를 준비해야하는 지 끊임없이 질문해보는 것이다. 명확히 검증할 가설도 없이 데이터 파이프라인 구축 자체를 목적으로 하는 것만큼 낭비도 없을 것이다. 기존 IT 시장은 데이터 파이프라인의 구축을 통해 수없이 많은 혁신을 이루어낼 수 있었지만, 의미없는 실패를 거듭하며 수없이 많은 비용을 희생하기도 하였다. 기술스택의 발전을 위한 건설적인 토론도 반갑지만, 업계에는 어떤 데이터를 블록 공간에 담아야 하는 지, 혹은 어떤 목적을 위해 데이터를 활용해야 하는 지 등과 같이 더욱 근본적인 주제에 대해 고민하고 토론하는 시간이 필요하다. ‘목적’은 실질적인 인텔리전스와 유스케이스를 통한 웹3 가치의 달성이 되어야하며, 이 과정에서 여러 프리미티브를 발전시키고 파이프라인을 완성하는 것은 ‘수단’인 셈이다.

이 글의 비주얼을 작성해주신 Kate에게 감사의 말씀을 전합니다.

About Us

Four Pillars is a global crypto research firm based in Seoul, consisting of the most influential blockchain researchers in Korea. Through robust research and governance skills, it helps various market players easily onboard to the blockchain industry by offering high-quality research articles while supporting protocols in their expansion into Korean and global markets.

Four Pillars Links

--

--

Jay : : FP
Four Pillars

Sculptor @FourPillars Twitter : @JayLovesPotato