탈중앙화 AI 톺아보기 (상)
Disclaimer: 본 글은 서울대학교 블록체인 학회 디사이퍼(Decipher)의 Weekly Session에서 탈중앙화 AI를 주제로 발표한 내용을 기반으로 작성되었습니다. 해당 글은 탈중앙화 AI에 대한 전반적인 내용을 바탕으로 작성자의 주관적인 의견을 포함하여 작성하였으며, 본 글에 포함된 어떠한 내용도 투자 조언이 아님을 명시합니다. 이에 따라 본 글의 어떠한 내용도 투자 조언으로 해석되어서도 안 됩니다.
시리즈
- 탈중앙화 AI 톺아보기 (상)
- 탈중앙화 AI 톺아보기 (하)
Author
이현우(@LHW0803), Vlad(@CosmicDude3000) of Decipher
Seoul Nat’l Univ. Blockchain Academy Decipher(@decipher-media)
Reviewed By 신성헌, 박순종, 최재우
이 아티클에서는 중앙화된 AI의 문제점을 분석하고, 블록체인이 어떻게 이를 해결할 수 있을지 각 프로젝트에 대한 사례 분석을 기반으로 알아봅니다.
목차
- AI 문제점
a. 모델 생성
b. 컴퓨팅 자원
c. 프라이버시
d. 데이터 출처
e. 검증 가능성
f. 규제 - 블록체인 애플리케이션 문제
- Web3의 도움
a. 컴퓨팅 자원
- 아카시 (Akash)
- Io.net
- 비텐서 (Bittensor)
b. 데이터 프라이버시와 보안
- 프리바시 (Privasea)
Why AI?
우선, 오늘날 AI(예: ChatGPT, Gemini, NotionAI, 또는 DeepL)를 사용하지 않는 사람이 누가 있을까요? AI는 요즘 모든 이들에게 주목을 받고 있으며 시간이 지남에 따라 더욱 영향력이 커질 것으로 기대됩니다.
과거에는 AI와 블록체인이 서로 대립되는 개념으로 간주되었습니다 (딥페이크와 싸우기, 프라이버시 제공). 그러나 최근 리서치들을 통해 두 기술이 상호 보완적일 수 있다는 것이 점차 더 명확해지고 있습니다.
AI 문제점
기존 AI 모델의 문제점과 이를 어떻게 블록체인이 해결하고 있는지에 대해 살펴보겠습니다. 이번 파트에서 다룰 문제점은 아래와 같습니다:
- 컴퓨팅 중앙화 및 GPU 자원의 낭비
- 사용자 데이터 프라이버시 및 통제 부족
- 데이터와 그 출처의 중앙화로 인한 편향성
- 모델의 검증 가능성 부족
본 리서치에서는 각 문제에 대해 살펴보기에 앞서 먼저 인공지능의 생성 과정에 대해 간단히 알아본 후 그 과정에서 필연적으로 마주하게 되는 한계들에 대해 보다 자세히 살펴볼 예정입니다.
모델 생성
인공지능은 생성 과정에서 다양한 중앙화라는 권력에 직면합니다. AI 모델을 만들기 위해 개발자와 연구자들은 사전 훈련, 미세 조정, 추론의 3단계를 거쳐야 합니다. 각 단계에 대한 간단한 설명은 다음과 같습니다:
- 사전 훈련은 다양한 데이터셋을 통해 광범위한 지식을 모델에 제공하는 것입니다.
- 미세 조정은 특정 사용 사례의 요구 사항을 충족하는 작고 특화된 데이터셋으로 모델을 적응시키는 것입니다.
- 추론은 실제 문제에 대한 응답 형태로 모델이 학습한 지식을 배포하고 검증하여 정확하고 시기적절한 예측이나 분석을 제공하는 것입니다.
이제 이러한 단계에서 발생하는 문제들에 대해 이야기해 보겠습니다.
컴퓨팅 자원
중앙화된 AI 모델의 급속한 개발 및 배포는 컴퓨팅 자원과 관련된 중요한 문제를 야기했습니다. 이러한 문제는 방대한 컴퓨팅 파워의 필요성과 관련 에너지 소비 등 여러 주요 영역에서 나타납니다.
중앙화된 AI 모델 중 특히 GPT-4와 그 이상의 대규모 모델은, 훈련 및 운영을 위해 엄청난 컴퓨팅 파워를 필요로 합니다. 이는 방대한 데이터셋을 처리하고 여러 반복에 걸쳐 복잡한 계산을 수행해야 하는 필요성에서 비롯됩니다 (모델의 반복적인 계산 횟수가 증가함에 따라 컴퓨팅 파워가 기하급수적으로 향상됨). 이러한 모델을 훈련시키는 것은 수천 개의 GPU 또는 TPU를 병렬로 며칠, 몇 주 또는 몇 달 동안 실행하는 것을 포함합니다. 예를 들어, OpenAI의 GPT-3는 1,750억 개의 매개변수를 사용하여 훈련되었으며, 이는 OpenAI, 구글, 아마존과 같은 몇몇 기관만이 감당할 수 있거나 접근할 수 있는 전례 없는 양의 컴퓨팅 자원을 요구했습니다.
중앙화된 AI 모델의 높은 컴퓨팅 요구는 상당한 에너지 소비로 직결됩니다. 특히 AI 훈련 및 추론 작업을 호스팅하는 데이터 센터는 막대한 양의 전기를 소비합니다. 이 에너지 소비에 상당한 비용이 많이 들기 때문에 특히 모델이 계속 커지고 복잡해짐에 따라 AI 사용의 지속 가능성에 대한 우려가 제기되곤 합니다. 최근 팟캐스트에서 마크 저커버그는 AI 개발자들이 더 큰 모델을 개발하는 과정에서 “gonna run into energy constraints”이라고 우려를 표명했습니다. 이러한 상황 속에서 OpenAI와 Microsoft가 슈퍼컴퓨터를 구동하기 위해 원자력을 사용할 계획이라는 루머가 있으며, 아마존은 최근 원자력으로 구동되는 데이터 센터를 구매했습니다.
컴퓨팅 및 에너지 자원 문제는 진입 장벽을 형성하여 자금이 풍부한 조직과 국가만이 참여할 수 있게 만듭니다. 이러한 자원의 집중은 힘의 불균형을 초래하여 소수의 기관만이 AI 발전을 주도하고 미래 응용 프로그램의 의제를 설정할 수 있습니다. 소규모 기업, 학술 기관, 개발 도상국은 경쟁할 자원이 부족하여 이 분야의 다양성과 혁신이 저해되는 결과를 초래합니다. 블록체인 기술로는 현재의 에너지 문제를 해결할 수 없기 때문에, 컴퓨팅 자원과 관련한 문제를 더 자세히 살펴보겠습니다.
GPU 생산의 중앙화
GPU, 즉 그래픽 처리 장치는 병렬 처리를 효율적으로 수행할 수 있기 때문에 AI 연산에 필수적인 부품입니다. 그러나 이러한 GPU의 생산은 고도로 중앙화되어 있으며, NVIDIA, AMD, 그리고 일부 Intel과 같은 몇몇 주요 기업이 시장을 지배하고 있습니다.
NVIDIA의 수익과 주식 수요는 그 제품에 대한 AI 개발의 높은 의존도로 인해 인공지능에 대한 전반적인 관심의 신호로도 볼 수 있습니다. 대부분의 빅테크 기업들은 NVIDIA와 대량으로 칩을 인도하는 계약을 체결했습니다. 그 결과 NVIDIA는 올해 월스트리트의 기대치를 크게 초과하는 성과를 거두었습니다. NVIDIA는 회계연도 기준 2025년 1분기에 260억 달러의 수익을 올렸으며, 이는 4분기 대비 18% 증가한 수치로, 전년 대비 262% 증가했습니다. 순이익은 1년 전의 20억 달러에서 148억 8천만 달러로 증가했습니다.
이 회사는 GPU 시장에서 가격, 가용성 및 기술 발전에 영향을 미칠 수 있습니다. 시장에 대한 이러한 통제는 높은 가격과 최신 기술에 대한 접근 제한을 초래하여 소규모 기업 및 독립 연구자들이 최신 AI 기술을 활용하는 데 어려움을 겪게 합니다. 예를 들어, NVIDIA의 H100과 같은 인기 있는 AI 칩은 매우 인기 있고 비싸기 때문에 구글, 아마존, 메타, 애플과 같은 기술 회사들의 대량 주문으로 인해 소규모 기업이나 일반인들은 이를 매입하기 어렵습니다.
대기업들이 R&D에 막대한 투자를 하는 반면, 몇몇 기업에 혁신이 집중되는 것은 더 넓은 산업 발전을 억제할 수 있습니다. 다양한 관점과 더 많은 플레이어들의 경쟁 압력이 더 빠르고 다양한 혁신을 촉진할 수 있습니다.
또한, 몇 가지 GPU 아키텍처가 지배적인 상황에서는 많은 AI 소프트웨어 생태계가 특정 하드웨어에 맞춰져 있습니다. 이러한 단일 문화는 AI 애플리케이션이 다양한 하드웨어 환경에 유연하고 적응할 수 있는 능력을 제한할 수 있습니다.
칩 제조
GPU 생산의 핵심 부분인 칩 제조를 자세히 살펴보면, Nvidia와 AMD는 칩 제조를 외주화하고, GPU 판매 및 설계만 담당합니다. 현재 칩 제조에는 TSMC(Taiwan Semiconductor Manufacturing Corporation)와 삼성 두 개의 거대한 기업이 시장을 지배하고 있으며 그 중 삼성은 최근 몇 년 동안 패권을 잃고 있습니다.
TSMC는 고밀도 패키징 기술을 활용하여 성능, 기능 및 비용을 향상시키기 위해 칩을 3차원으로 쌓는 고급 칩 패키징 특허를 보유하고 있습니다. 그렇기 때문에 현재 전 세계 반도체의 60% 이상과 가장 고급 반도체의 90% 이상을 생산하고 있습니다. Nvidia와 AMD는 TSMC에 강하게 의존하고 있습니다. 이는 대만 주변의 정치적 상황을 고려할 때 위험한 병목 현상을 형성합니다.
지금까지 AI 모델 개발 과정에서 발생하는 컴퓨팅 자원 문제에 대해 다뤘습니다. 하지만 해결되어야 할 한계점은 모델 개발 과정에 국한되지 않으며 그 다음 단계인 모델 배포 과정에서도 유사한 문제가 발생하고 있습니다.
모델 배포
모델 배포는 AI 모델 생애 주기에서 중요한 단계입니다. 이는 모델을 프로덕션 환경에서 사용 가능하게 하여 최종 사용자나 다른 시스템의 요청에 응답할 수 있도록 하는 것을 의미합니다. 성공적인 배포를 위해 배포 환경을 선택하는 것이 중요한 요소입니다. 일반적인 선택지는 온프레미스 서버와 클라우드 서버로 나눌 수 있습니다. 온프레미스 서버는 기존 인프라가 있는 조직에 적합하고, 클라우드 서버는 확장성과 유연성이라는 강점을 갖습니다. 가장 인기 있는 클라우드 제공업체로는 AWS, Google Cloud Platform, Microsoft Azure가 있습니다. 대부분의 모델은 제한된 선택지로 최상위 클라우드 서버에 배포됩니다.
이는 개발자들에게 상당한 비용을 발생시키지만, 인프라 제공업체(회사)에게는 큰 혜택을 줍니다. 2023년 4분기 기준, 세 개의 주요 클라우드 컴퓨팅 서비스 제공업체는 전 세계 시장의 66%를 통제하고 있습니다.
AI 인프라 제공업체는 지리적 및 관할적으로 중앙화되어 있습니다. 통계에 따르면, 미국과 유럽 국가들이 전 세계 데이터 센터의 대다수를 호스팅하고 있습니다. 이 중앙화는 미국과 EU의 AI 규제가 많은 국가들의 복잡한 AI 모델 훈련 및 추론 제공 능력을 잠재적으로 제한할 수 있기 때문에 중요합니다.
프라이버시
사용자에게 중요한 또 다른 문제는 프롬프트 소유권입니다. 현재 모델에 입력으로 제공하는 모든 것이 모델 제작자에게 귀속되며, 모델을 추가로 훈련하는 데 사용될 수 있습니다. 기밀 또는 개인 정보가 의도치 않게 훈련 자료의 일부가 될 수 있습니다.
예를 들어, Google 연구원들은 특정 키워드를 사용하여 ChatGPT에서 개인 사용자 정보를 포함한 의도치 않은 훈련 데이터를 추출할 수 있다고 주장합니다. 삼성 직원들도 ChatGPT 사용 후 매우 기밀한 정보가 노출된 것을 발견했습니다.
중앙화된 모델은 방대한 양의 데이터를 단일 또는 몇 개의 위치에 저장하여 단일 장애 지점을 만듭니다. 이러한 데이터 센터가 손상되면 방대한 양의 민감한 정보가 유출될 수 있습니다. 이는 또한 접근 제어 메커니즘에 대한 우려를 야기합니다. 특히 대규모 조직에서는 허가된 인원만이 데이터에 접근할 수 있도록 제한하는 것이 어려울 수 있습니다.
사용자들은 일반적으로 자신의 데이터가 어떻게 사용되고 저장되는지에 대해 완전히 인식하지 못합니다. 서비스 약관과 개인정보 보호 정책은 종종 복잡하고 모든 사용자가 이해하기 어렵기 때문에, 사용자들은 자신의 입력이 어떻게 활용되는지에 대해 잘 모르는 경우가 많습니다.
데이터 출처
AI 모델은 데이터로부터 패턴, 관계 및 행동을 학습합니다. 데이터 없이는 모델을 특정 작업을 수행하도록 훈련할 수 없습니다. 데이터에 대한 필요성은 또 다른 중앙화 벡터를 만듭니다. 최고의 데이터에 대한 접근은 일반적으로 몇몇 주요 플레이어, 즉 대형 기술 기업들에 집중되어 있습니다. 이러한 기업들은 대규모이면서도 다양한 데이터셋을 수집, 관리 및 분석할 수 있는 상당한 자원을 보유하고 있습니다. 예를 들어, 구글은 Google 검색, Gmail, YouTube, Android와 같은 서비스를 통해 사용자 행동, 선호도 및 활동에 대한 방대한 데이터를 수집할 수 있습니다. Meta(Facebook)는 Facebook, Instagram, WhatsApp, Oculus를 통해 광범위한 사회적 및 행동 데이터를 수집합니다. 어느 한 유출된 문서에 따르면, OpenAI는 Tumblr와 WordPress에서 사용자 데이터를 구매하려 했습니다. 또 다른 데이터 수집 방법은 웹 페이지 및 서비스의 데이터를 긁어모으는 것입니다. 문제는 웹사이트 제작자(데이터 보호)와 데이터 수집자(데이터 접근) 간의 끊임없는 기술 경쟁이 있다는 것입니다. 데이터 수집자는 일반적으로 해당 데이터에 차단되거나 접근이 제한됩니다. 그럼에도 불구하고 시장 규모의 성장은 데이터 수집 서비스에 대한 수요가 증가하고 있음을 보여줍니다.
AI 모델의 편향성은 불공평하고, 부정확하며, 해로운 결과를 초래할 수 있는 중요한 문제입니다. 편향성은 주로 훈련에 사용된 데이터나 알고리즘 자체에서 비롯됩니다. 한 가지 좋은 사례로 미국 법원에서 사용되는 재범 위험 평가 도구인 COMPAS (Correctional Offender Management Profiling for Alternative Sanctions)가 있습니다. 이 도구는 다양한 요인을 기반으로 위험 점수를 제공하여 판사들이 선고 결정에 도움을 주기 위해 사용되었습니다. 그런데 이 모델은 인종에 대해 편향된 것으로 밝혀졌습니다. 알고리즘은 형사 사법 시스템의 체계적인 인종 격차로 인해 본질적으로 편향된 역사적 범죄 데이터를 기반으로 훈련되었습니다. 논란이 많음에도 불구하고, 이 도구는 여전히 여러 미국 주에서 피고인의 재범 가능성을 예측하여 결정을 내리는 데 도움을 주기 위해 사용되고 있습니다.
검증 가능성
폐쇄형 모델은 훈련 데이터와 모델 아키텍처를 기밀로 유지하여, 특정 매개변수의 구성을 독점적으로 유지합니다. 이는 AI 모델의 의사 결정 과정을 철저히 이해하거나 검사하거나 이의를 제기할 수 없게 만듭니다. 기본적으로 사용자들은 AI 모델이 주장하는 내용의 진위여부를 확인할 수 없습니다.
이러한 불투명성은 전문가들이 모델의 작동 방식을 이해하고 잠재적인 약점이나 편향성을 식별하는 것을 방해하여, 특히 중요한 응용 프로그램에서 AI 결정에 대한 신뢰를 구축하고 의존하기 어렵게 만듭니다. 모델이 윤리적 지침, 규제 요구 사항 또는 데이터 사용 정책과 같은 지정된 제한을 준수하는지 확인할 방법이 없습니다. 또한, 사용자들은 의도된 데이터 입력만이 사용된다는 것을 보장할 수 없어 데이터 보안과 프라이버시에 대한 우려를 제기합니다. 민감한 정보가 사용자 모르게 잘못 처리될 가능성이 있으며 이는 잠재적인 프라이버시 침해와 데이터 남용을 초래할 수 있습니다.
규제
전 세계적으로 AI에 대한 규제는 빠르게 진화하고 있습니다. AI 개발의 기술적 문제 외에도 현재의 규제는 AI 중앙화에 상당히 기여하고 있습니다. 2023년 10월 30일, 조 바이든 대통령은 “안전하고, 보안적이며, 신뢰할 수 있는 인공지능 개발 및 사용”에 관한 대통령 행정명령을 발표했습니다. 이 명령은 국가 안보 자원을 보장하기 위해 대통령에게 광범위한 권한을 부여합니다.
이 법은 AI의 안전하고 신뢰할 수 있는 개발을 위한 원칙을 제시하며, 투명성, 프라이버시, 보안의 필요성을 강조합니다. 이 명령은 컴퓨팅 및 데이터에 대한 엄격한 고객 확인(KYC)을 요구하며, 미국 영토나 미국 데이터 센터에서 외국 AI 모델 훈련을 금지합니다. 이 법은 새로운 AI 안전 표준을 설정하는 것을 목표로 하며, 컴퓨팅 및 데이터에 대한 엄격한 고객 확인(KYC) 요구 사항을 부과하고 외국 AI 모델 훈련을 미국 영토나 데이터 센터에서 금지합니다.
2024년 5월 21일, 유럽 의회는 EU 인공지능법(“EU AI Act”)을 공식적으로 채택했습니다. 이 법은 EU 내에서 마케팅되거나 사용되는 AI 시스템의 제공자 및 개발자에게 적용됩니다.
이러한 규제는 기술 개발과 사용의 투명성과 안전성을 높이는 한편, 규제 요건을 충족하기 위해 자원이 풍부한 기업들에게 더 많은 책임을 부과하여 AI 기술의 중앙화를 더욱 촉진할 수 있습니다.
EU 인공지능법(EU AI Act)은 AI 시스템을 네 가지 등급으로 분류하는 위험 기반 접근 방식을 채택하고 있습니다. 이는 일반적으로 1) 관련된 데이터의 민감성과 2) 특정 AI 사용 사례나 응용 프로그램에 따라 분류됩니다. 고위험 AI 시스템은 엄격한 의무를 지게 되며, 모든 범용 AI 모델은 시장에 출시되기 전에 투명성이 요구됩니다. 이는 이러한 모델에 대한 더 나은 이해와 매우 영향력 있는 모델에 대한 추가적인 위험 관리 의무를 가능하게 하기 위해 마련되었습니다. 이러한 추가 의무에는 시스템적 위험의 자가 평가 및 완화, 심각한 사건 보고, 테스트 및 모델 평가 수행, 그리고 사이버 보안 요구 사항이 포함됩니다.
고위험 AI 시스템에 부과되는 의무에는 다음이 포함됩니다:
- 시스템적 위험의 자가 평가 및 완화
- 심각한 사건 보고
- 테스트 및 모델 평가 수행
- 사이버 보안 요구 사항 준수
이러한 규제는 AI 시스템이 안전하고 책임 있게 사용될 수 있도록 보장하기 위한 것이지만, 엄격한 규제 요구 사항을 충족하기 위해 자원이 풍부한 기업들에게 더 많은 책임을 부과하여 AI 기술의 중앙화를 더욱 촉진할 수 있습니다.
동시에, 새로운 규제는 중국, 러시아 및 기타 국가로의 고급 칩 및 칩 제조 장비 출하에 대한 미국의 광범위한 제한에 추가될 것입니다. 새로운 규제는 현재 기술 매개변수 바로 아래에 해당하는 일부 AI 칩의 출하를 차단하는 동시에 다른 칩의 출하에 대해 회사들이 보고할 것을 요구합니다. 이로 인해 외교적 분쟁이 발생했으며, 중국은 미국이 법률을 경제적 압박 도구로 사용한다고 주장하는 반면, 미국 외교관들은 이것이 중국의 군사 강화에 대한 조치라고 주장합니다.
이러한 규제는 고급 칩과 관련 기술의 확산을 억제함으로써 AI 기술의 중앙화를 더욱 심화시킬 수 있습니다. 또한, 국제적으로 기술 접근의 불균형을 초래하여 특정 국가나 기업이 AI 발전을 주도하게 만들 수 있습니다.
이러한 규제는 왜 필요한가요? AI는 웹 애플리케이션의 일반적인 위험을 상속받아 방대한 양의 데이터를 수집합니다. 그리고 이 데이터가 위험한 방식으로 사용된 전례가 있었습니다. 예를 들어, 수천만 명의 사용자 데이터가 선거 결과를 변경하는 데 사용된, Facebook 역사상 가장 큰 데이터 유출로 알려진 Cambridge Analytica 스캔들이 있습니다.
결과적으로, Facebook은 50억 달러의 벌금을 부과받았습니다. 규제 당국은 Facebook이 프라이버시 접근 방식을 기업 이사회 수준부터 재구성하고 강력한 새로운 책임 메커니즘을 구축할 것을 요구했습니다.
이는 AI가 수집하고 운영하는 데이터에 대한 유사한 우려를 제기합니다. 특히 AI가 기존의 어떤 소셜 미디어보다 더 많은 데이터를 수집할 가능성이 있다는 점에서 더욱 그렇습니다. 규제를 통해 데이터 유출로부터 보호받는다고 가정할 수 있다 하더라도, 정부가 이 데이터를 사용하고 AI 모델을 그들의 이익을 위해 활용할 가능성의 위험은 여전히 남아 있습니다.
블록체인 애플리케이션 문제
블록체인 애플리케이션은 보다 광범위한 채택과 효과적인 구현을 위해 해결해야 할 몇 가지 중요한 문제와 도전 과제에 직면해 있습니다.
가장 중요한 문제 중 하나는 사용성 및 사용자 경험입니다. 블록체인 기술의 기술적 복잡성은 일반적인 사용자들에게 진입 장벽이 될 수 있습니다. 대중화를 위해서는 사용자 인터페이스와 경험이 크게 개선되어야 합니다.
사용자들은 자신의 프라이빗 키를 관리해야 합니다. 프라이빗 키를 분실하면 자산에 대한 접근 권한을 잃게 되며, 이는 큰 위험을 초래합니다. 블록체인 거래의 복잡성은 자금을 잘못된 주소로 보내는 등의 사용자 오류 가능성을 증가시킵니다.
많은 블록체인 애플리케이션은 모든 사용자에게 동일한 인터페이스와 기능을 제공하는 일률적인 접근 방식을 사용합니다. 이는 사용자 경험을 최적화하지 못합니다.
블록체인 사용자들은 기술에 능숙한 개인과 개발자부터 완전한 초보자까지 다양합니다. 이러한 다양한 사용자를 단일 인터페이스로 만족시키는 것은 어려우며, 이는 일부 사용자에게 가파른 학습 곡선을 초래합니다.
블록체인 네트워크는 종종 분산된 거버넌스 모델에 의존하여 이해 관계자가 집단적으로 결정을 내립니다. 분산화는 블록체인 기술의 핵심 원칙이지만, 비효율성과 느린 의사 결정 과정을 초래할 수 있습니다. 다양한 이해 관계자들이 서로 다른 이해관계와 우선순위를 가지고 협력하는 것은 어려울 수 있습니다. 프로토콜 업그레이드나 거버넌스 규칙 변경과 같은 중요한 문제에 대해 합의에 도달하는 것은 시간이 많이 걸리고 논쟁의 여지가 있습니다.
또 다른 문제는 가격 피드와 같은 정확하고 신뢰할 수 있는 오프체인 데이터를 블록체인으로 가져오는 것입니다. 여러 소스에서 신뢰할 수 있는 가격 데이터를 얻는 것은 어려울 수 있으며, 데이터 소스 간의 불일치는 잘못된 가격 책정으로 이어질 수 있습니다. 가격 피드는 최신 시장 상황을 반영하기 위해 실시간으로 업데이트되어야 합니다. 데이터 업데이트 지연은 오래된 정보를 초래하여 부정확한 평가와 잠재적인 재정적 손실을 초래할 수 있습니다.
이후에 우리는 AI가 이러한 문제를 해결하는 데 블록체인에 어떻게 도움을 줄 수 있는지 논의할 것입니다.
이제 Web3 또는 암호화폐가 기존의 AI의 한계점들에 어떻게 도움을 줄 수 있는지 이야기해보겠습니다.
Web3의 도움
1. 컴퓨팅 자원
GPU에 대한 높은 수요는 새로운 현상이 아닙니다. 특히 비트코인과 이더리움 같은 암호화폐의 출현으로 과거에 GPU 수요가 급증했습니다. 이제 AI 모델 훈련에 대한 욕구가 수요를 창출하고 있습니다. 현재 상황은 총 공급이 수요를 초과한다는 점에서 특히 흥미롭습니다. 모든 GPU가 AI 훈련을 위해 조직되고 준비된다면 공급 과잉이 될 것입니다.
최첨단 GPU 가용성이 제한된 시나리오에서 오래된 GPU를 사용하여 AI 모델을 훈련하는 접근 방식이 유익할 수 있습니다. “롱테일 GPU”는 일반적으로 오래되고 덜 강력하거나 시장에서 수요가 적은 GPU 모델을 의미하며, 특히 게이밍 PC 및 콘솔, 데이터 센터, 엣지 디바이스, 기업 또는 학술 워크스테이션의 GPU를 포함합니다.
GPU를 선택할 때 고려해야 할 기술적 문제들이 많습니다.
오래된 GPU는 성능 능력이 다를 수 있어 작업 부하 분배에 비효율성을 초래할 수 있습니다. 이종 GPU 간의 작업 부하를 효율적으로 균형 맞추는 것은 복잡하며 정교한 스케줄링과 자원 관리가 필요합니다.
여러 GPU 간의 통신 오버헤드는 특히 GPU가 다른 노드에 분산되어 있을 경우 병목 현상을 야기할 수 있습니다. 대량의 데이터를 GPU 간에 전송하는 것은 훈련 과정을 상당히 느리게 할 수 있습니다. 많은 수의 이종 GPU를 관리하는 것은 복잡하고 자원 집약적일 수 있습니다.
이전에는 컴퓨팅을 위한 이 양면 시장을 효과적으로 관리할 인센티브와 조정 레이어가 없었습니다. Web3 생태계가 제공할 수 있는 해결책은 이러한 다양한 분산된 하드웨어의 개발 및 운영을 조정하기 위해 암호화 인센티브를 활용하는 것입니다. 비록 아직 초기 단계이지만, 롱테일 GPU 파워를 분산형 물리적 인프라 네트워크(DePIN)에 온보딩하는 것이 비용을 절감하는 방법임을 이미 확인하였습니다. DePIN 네트워크에서 최고 성능 GPU 중 일부는 약 70% 저렴합니다.
따라서, 거대하고 독점적인 기업들과 그들이 접근할 수 있는 자원들에 경쟁하는 가장 좋은 방법은 분산형 및 비허가형 컴퓨팅을 사용하는 것처럼 보입니다. DePIN에 암호화 인센티브가 추가되면, 소프트웨어가 중앙 권한 없이 하드웨어에 대한 비용을 지불할 수 있게 됩니다.
비트코인 네트워크를 “세계 최대의 컴퓨터 네트워크, 아마존, 구글, 마이크로소프트가 지난 15–20년 동안 구축한 클라우드의 결합 크기보다 수배나 큰 네트워크”로 만든 것과 같은 역학이 분산형 오픈 소스 AI가 중앙화된 AI와 경쟁할 수 있게 할 것입니다.
가장 일반적인 전략은 DePIN FlyWheel이라는 흐름으로 나타낼 수 있습니다:
- 네트워크 성장에 기여하는 참가자들은 토큰 보상을 통해 동기 부여를 받으며, 이는 그들의 노력을 보조하는 역할을 합니다. 이러한 인센티브는 네트워크가 사용자 수수료로 안정적인 수익을 얻을 수 있을 때까지 초기 개발을 촉진하기 위해 설계되었습니다.
- 네트워크의 확장은 개발자와 제품 창작자들을 끌어들이고, 서비스를 제공하는 사람들에 대한 재정적 지원을 통해 더 낮은 비용으로 서비스 제공이 가능해지며, 이는 최종 사용자들을 끌어들입니다.
- 최종 사용자가 네트워크가 제공하는 서비스에 대한 비용을 지불하기 시작하면, 제공자와 네트워크 자체의 수입이 증가합니다. 수익 증가는 긍정적인 피드백 루프를 생성하여, 추가적인 제공자와 투자자들을 네트워크로 끌어들입니다.
- 사용자 소유의 네트워크에서는, 네트워크 내의 가치가 다시 사용자들에게 분배될 수 있으며, 일반적으로는 토큰 소각 모델이나 플랫폼 수익 분배를 통해 이루어집니다. 이러한 모델에서는 네트워크가 더 유용해질수록 토큰의 가치가 상승하게 됩니다. 토큰 가치의 상승은 더 많은 제공자들이 네트워크에 참여하도록 장려하여, 유익한 사이클을 지속시킵니다.
일부 경우 플라이휠이 폰지 사기로 인식되곤 하지만, 선순환 구조가 조화롭게 작동된다면 그러한 비판으로부터 비교적 자유로워질 것입니다. 이번에 소개하고자 하는 패러다임(플라이휠)을 따르는 첫 번째 프로젝트는 Akash입니다.
Akash
분산형 컴퓨팅 마켓플레이스
Akash는 컴퓨팅 자원의 안전하고 효율적인 구매와 판매를 촉진하는 오픈 네트워크입니다. 공공의 이익이라는 목적에 맞게 구축되었으며, 완전한 오픈 소스 생태계로 활발한 기여자 커뮤니티가 있습니다.
Akash는 AKT라는 자체 토큰을 가지고 있습니다. AKT는 Akash 네트워크의 기본 유틸리티 토큰으로, 블록체인을 관리하고 보호하며, 참가자들에게 인센티브를 제공하고, 가치 저장 및 교환의 기본 메커니즘을 제공합니다. Akash 네트워크는 지분증명(Proof-of-Stake, PoS) 합의 알고리즘으로 보호됩니다.
Akash 네트워크는 최근 암호화폐 시장에서 가장 주목받은 프로젝트 중 하나였습니다. 이 클라우드 컴퓨팅 플랫폼의 AKT 코인은 2023년 동안 10배 이상 상승했습니다. 특히 마켓플레이스 출시 이후 Akash의 일일 지출이 2023년 8월 말에 20.32배 증가하면서 GPU에 대한 수요가 뚜렷해졌습니다.
Akash는 전 세계에 있는 약 840만 개의 데이터 센터에서 유휴 상태로 있는 막대한 자원 시장에 접근하고 있습니다.
Akash 네트워크에서 중요한 두 가지 축은 아래와 같습니다.
- 제공자(Providers): 인프라 서비스를 관리하는 조직이나 개인입니다. 제공자는 쿠버네티스(Kubernetes) 클러스터를 설정하고 유지 관리하는 책임이 있습니다.
- 사용자(테넌트): 쿠버네티스 클러스터가 제공하는 인프라를 이용하는 개인이나 조직입니다. 테넌트는 클러스터 자체를 관리하지 않고, 제공자가 할당한 리소스를 사용합니다. 테넌트는 쿠버네티스 환경 내에서 Docker 컨테이너 안에 애플리케이션을 배포합니다. 쿠버네티스는 이 컨테이너들을 오케스트레이션하며, 테넌트가 지정한 구성에 따라 생애 주기, 스케일링 및 관리를 합니다.
쿠버네티스 클러스터
쿠버네티스 클러스터는 컨테이너화된 애플리케이션을 실행하는 노드 머신 세트입니다. 클러스터는 적어도 하나의 작업자 노드와 마스터 노드로 구성됩니다. 마스터 노드는 클러스터의 상태를 관리하며 (애플리케이션 스케줄링, 애플리케이션의 원하는 상태 유지, 애플리케이션 스케일링 및 새로운 업데이트 배포 등을 수행합니다, 쿠버네티스 클러스터는 기저 인프라(서버, 스토리지, 네트워킹)를 추상화하여 애플리케이션이 특정 물리적 또는 가상 머신에 종속되지 않고 컴퓨팅 환경 전반에 걸쳐 실행될 수 있도록 합니다.Docker 컨테이너
Docker는 애플리케이션을 개발, 배포 및 실행하는 플랫폼으로, 이른바 컨테이너 안에서 실행됩니다. 컨테이너는 소프트웨어의 표준화된 단위로, 코드와 모든 종속성을 함께 패키징하여 애플리케이션이 다양한 컴퓨팅 환경에서 빠르고 신뢰성 있게 실행되도록 합니다. Docker 컨테이너는 서로 격리되어 실행되지만, OS 커널과 바이너리 및 라이브러리를 공유하여, 전통적인 가상 머신에 비해 경량화되고 효율적입니다.
Akash는 사용자에게 가격과 포함된 속성에 대한 제어권을 제공합니다. 앱 개발자들에게는 터미널에서 앱을 임대하고 배포하는 Command-Line 도구를 제공합니다. 중앙화된 클라우드에서 실행되는 모든 컨테이너화된 애플리케이션은 Akash 분산형 클라우드에서 더 빠르고 저렴하게 실행될 수 있습니다.
마켓플레이스는 역경매 방식을 사용합니다. 테넌트는 배포의 가격과 조건을 설정하고, 클라우드 제공자는 이 배포에 입찰합니다. 배포에는 그룹(Groups)이 포함되며, 이는 단일 제공자로부터 함께 임대될 리소스들의 그룹입니다.
이 역경매의 기본 구조는 간단합니다.
- 테넌트가 주문을 생성합니다.
- 제공자가 주문에 입찰합니다.
- 테넌트가 낙찰자를 선택하고 임대(예치금)를 생성합니다.
임대료는 배포 소유자(테넌트)로부터 제공자에게 예치 및 인출 메커니즘을 통해 지불됩니다. 테넌트는 배포를 생성할 때 예치금(임대)을 제출해야 합니다. 임대료는 이 예치금의 잔액에서 수동적으로 지불됩니다. 언제든지 임대 제공자는 이 예치금에서 자신에게 지급될 잔액을 인출할 수 있습니다.
예치금에 있는 사용 가능한 자금이 0이 되면, 제공자는 임대를 종료할 수 있습니다. 따라서 임대를 유지하려는 테넌트는 예치금에 자금을 추가해야 하며, 이는 임대가 조기에 종료되지 않도록 보장합니다. 배포가 종료되면 잔여 예치금은 테넌트에게 반환됩니다.
이러한 에스크로(예치) 계정은 Akash에서 두 가지 주요 이유로 필요합니다:
- Akash에서 임대는 블록 단위로 가격이 책정됩니다. 새로운 블록이 생성될 때마다 테넌트(배포 소유자)에서 제공자(임대 보유자)로 지불이 이루어져야 합니다. 성능 및 보안 고려 사항 때문에 매 블록마다 토큰을 전송하는 단순한 접근 방식은 금지됩니다.
- 주문에 대한 입찰은 무료가 되어서는 안 됩니다(성능 및 보안을 포함한 여러 이유로). Akash는 모든 입찰에 대해 예치금을 요구합니다. 입찰이 종료되면 예치금은 입찰자에게 반환됩니다.
현재 Akash는 가장 유망한 DePIN 프로젝트 중 하나로 남아 있습니다만, 그럼에도 불구하고 Akash는 여러 가지 도전 과제에 직면해 있습니다.
- 분산된 마켓플레이스에서 수요와 공급을 효율적으로 매칭하는 것은 여전히 복잡합니다. 자원 할당은 비용과 지연 시간을 최소화하면서 최적의 활용을 보장해야 합니다.
- 분산 환경에서 거래와 데이터의 보안과 무결성을 보장하는 문제가 남아있습니다. 테넌트는 자신의 데이터와 계산이, 제3자에 의해 조작되거나 무단으로 침해받지 않을 것이라고 전적으로 신뢰해야 하는 상황입니다.
- 또한, 분산형 클라우드 마켓플레이스를 사용하는 기술적 복잡성은 일반 사용자에게 진입 장벽이 될 수 있습니다.
- 다양한 제공자가 있는 분산 네트워크에서 높은 성능과 서비스 품질을 유지하는 것은 어렵습니다. 사용자는 일관되고 신뢰할 수 있는 성능을 제공받으리라고 신뢰할 수밖에 없습니다.
다음으로 소개할 두 번째 DePIN 프로젝트는 Io.net입니다.
Io.net
과거에 Io.net은 미국 주식 시장과 암호화폐 시장을 위한 기관급 퀀트 트레이딩 시스템 개발에 전념했습니다. 회사의 주요 과제는 상당한 컴퓨팅 파워를 가진 강력한 백엔드 트레이딩 시스템을 수용하기 위한 인프라를 구축하는 것이었습니다.
이 문제를 해결하는 과정에서 결국 Io.net 팀은 DePIN이라는 카테고리 내 분산형 클러스터라는 개념을 고안하게 되었습니다. 당시 팀이 이용 가능한 클러스터 솔루션을 검토한 결과, 높은 비용에 직면하게 되었습니다. 그들은 회사와 전체 산업을 위한 해결책을 모색하기 시작했습니다.
팀은 여러 계층의 아키텍처를 구축했으며, 이는 원활하고 안전하며 효율적인 사용자 경험을 제공하는 통합 구조를 갖게 되었습니다. 시스템의 최적 성능을 보장하기 위해 각 계층은 협력하여 고유한 역할을 합니다. 이 아키텍처는 확장성, 신뢰성 및 견고성을 보장하는 최신 기술을 기반으로 구축되었습니다.
이 플랫폼은 다양한 GPU를 하나의 공동 자원 풀로 집계하여 AI 개발자와 기업이 접근할 수 있도록 합니다. 이들의 사명은 “Putting together one million GPUs”입니다. 이를 통해 온디맨드 방식의 확장 가능한 GPU 접근을 제공하며, 마찰 없는 클러스터 배포, 사전 구성된 ML 스택, Solana를 통한 즉각적인 결제와 같은 기능을 제공합니다. Io.net은 분산된 하드웨어 위에 맞춤형 네트워킹 및 오케스트레이션 레이어를 오버레이하여 ‘클러스터링’을 구현하며, 이를 효과적으로 활성화하고 통합하여 ML 작업을 수행합니다. Akash와의 주요 차이점은 GPU 클러스터링 방식입니다.
Ray, Ludwig, Kubernetes 및 기타 오픈 소스 분산 컴퓨팅 프레임워크를 활용하여, 네트워크는 머신러닝 엔지니어들이 소규모 수정만으로도 프로젝트를 손쉽게 확장할 수 있도록 합니다.
이 아키텍처는 지리적 대역폭 문제를 해결하고 방화벽을 우회하는 소위 역 “터널”을 통해 작동합니다. 역 터널은 클라이언트가 원격 서버로부터 인바운드 연결을 열어 원격 서버에 안전한 연결을 설정하는 방법입니다. 이는 클라이언트가 서버에 연결을 여는 전통적인 포워드 터널과는 반대입니다. 역 터널을 사용함으로써 엔지니어는 복잡한 네트워크 구성을 필요로 하지 않고 NAT 라우터와 방화벽 뒤에 있는 원격 리소스에 접근할 수 있습니다.
흐름은 다음과 같이 설명될 수 있습니다:
- 원격 서버(IO 워커)가 중간 서버(io.net 서버)를 통해 클라이언트(엔지니어의 컴퓨터)에 연결을 시작합니다.
- io.net 서버는 클라이언트와 원격 서버로부터 들어오는 연결을 대기합니다. 연결이 설정되면 클라이언트와 원격 서버 간에 데이터를 마치 직접 연결된 것처럼 터널을 통해 교환할 수 있습니다.
- IO 워커는 io.net 서버에 연결을 설정하여 역 터널을 생성합니다.
- 엔지니어의 컴퓨터는 중간 역할을 하는 io.net 서버에 연결합니다.
- io.net 서버는 역 터널을 통해 엔지니어의 컴퓨터와 IO 워커 간의 트래픽을 라우팅합니다. 엔지니어는 복잡한 네트워크 구성이나 방화벽 및 NAT 제한 없이 안전하게 IO 워커를 접근하고 관리할 수 있습니다.
이것이 제공하는 것은 다음과 같습니다:
- 접근성 간소화: 엔지니어들이 네트워크 제한, 포트 포워딩, VPN에 대해 걱정할 필요 없이 IO 워커에 쉽게 접근할 수 있습니다.
- 보안 강화: 역 터널은 데이터 프라이버시와 무결성을 보장하는 안전한 통신 채널을 제공합니다.
- 확장성: io.net은 여러 IO 워커를 동시에 관리할 수 있어 엔지니어들이 효율적으로 작업할 수 있습니다.
- 유연성: 역 터널은 다양한 플랫폼에서 작동하여 여러 운영 체제와 환경과의 호환성을 보장합니다.
Io.net은 Akash와 매우 비슷한 구조를 갖는 만큼 직접적인 경쟁자 위치에도 있습니다. 따라서 Io.net은 몇 가지 고유한 문제점뿐만 아니라 경쟁자에게 드러난 문제점도 역시 지니고 있습니다.
- 시빌 공격에 대한 취약성: 네트워크는 사용자들이 GPU 가용성을 위조하여 향후 보상을 얻으려 시도하는 공격을 받았습니다. 한 사건에서는 약 180만 개의 가짜 GPU가 네트워크에 연결을 시도했습니다.
- 클러스터 연결 및 관리와 관련된 기술적 문제: 지난 몇 달 동안 GPU 공급 온보딩 과정에서 흔히 발생하는 문제를 해결하기 위한 수많은 문의가 있었습니다.
다음으로, 위의 프로젝트들과는 다른 특징을 지니며 새롭게 주목할 만한 프로젝트에 대해 이야기하겠습니다.
Bittensor:
Bittensor는 전 세계 다양한 개인이 소유한 머신러닝 모델을 연결하여 함께 학습하고 성장하는 분산형 네트워크입니다.
Bittensor 생태계는 다음 세 가지 구성 요소로 이루어져 있습니다:
- 인센티브 기반 경쟁 메커니즘: 각 인센티브 기반 경쟁 시장은 서브넷이라고 불립니다. 서브넷은 Bittensor 생태계의 핵심을 구성합니다.
- 블록체인 : 위 서브넷을 실행하고 서브넷의 적절한 기능을 지원합니다. 이를 통해 시장이 탈중앙성, 무허가성, 저항성을 달성할 수 있게 됩니다.
- Bittensor API : 위의 두 구성 요소 내의 모든 필수 요소를 연결하고, 서브넷과 블록체인을 연결합니다.
아래는 서브넷(네트워크에서 가장 중요한 부분)의 주요 구성 요소에 대한 설명입니다. 이 설명은 매우 단순화되어 있으며 필수 개념만 전달합니다.
아래의 번호는 그 아래 다이어그램의 번호와 일치합니다.
- 서브넷은 지원하는 인센티브 메커니즘에 의해 정의됩니다. 인센티브 메커니즘은 서브넷마다 고유합니다. 좋은 인센티브 메커니즘은 연속적인 개선을 장려하여 더 높은 점수를 달성하기 위해 채굴자 간의 경쟁을 활용합니다.
- 서브넷의 주체인 서브넷 채굴자는 각기 유용한 작업을 수행합니다. 이는 서브넷의 인센티브 메커니즘에서 정의된 문제를 해결하는 것입니다.
- 동일한 서브넷 내의 별개 주체인 서브넷 검증자는 각기 서브넷 채굴자가 수행한 작업을 독립적으로 평가합니다.
- 서브넷 검증자는 각기 채굴자의 작업 품질에 대한 의견을 표현합니다. 서브넷 검증자의 이러한 의견은 Bittensor API를 사용하여 블록체인의 Yuma 합의 메커니즘에 집단 입력으로 제공됩니다.
- 블록체인의 Yuma 합의 메커니즘의 출력은 서브넷 채굴자와 서브넷 검증자에 대한 보상이 어떻게 분배될지를 결정합니다. 보상은 TAO 토큰으로 제공됩니다.
Bittensor 생태계에서는 대부분의 활동이 참여하는 서브넷 내에서 이루어집니다. 이는 자신만의 서브넷을 만들었든 기존 서브넷에 서브넷 검증자 또는 서브넷 채굴자로 가입했든 상관없이 해당됩니다. 그럼에도 불구하고 다른 서브넷 주체와 상호 작용할 수 있습니다.
서브넷은 고전적인 피드포워드 신경망(Classical Feedforward Neural Network)이 연결된 방식을 따릅니다 (하나는 통신용이고 하나는 실행용으로 이뤄진 2개의 계층). 신경망의 노드는 Bittensor 서브넷에서 서브넷 검증자나 서브넷 채굴자로 나타냅니다. 노드는 서브넷 용어로 뉴런이라고도 합니다. 뉴런은 Bittensor 서브넷의 기본 컴퓨팅 노드입니다. 이는 다음을 의미합니다:
- 서브넷의 검증자는 서브넷 채굴자와만 연결됩니다.
- 서로 다른 두 서브넷 검증자가 서로 연결되지 않습니다. 마찬가지로 서로 다른 두 서브넷 채굴자도 연결되지 않습니다.
- 외부 세계로부터의 입력은 서브넷 검증자에게만 연결될 수 있습니다.
- 서브넷 검증자만 서브넷 채굴자에게 연결될 수 있으므로, 서브넷 채굴자는 외부 세계로부터 격리됩니다.
- 다대다 양방향 연결: 서브넷 채굴자는 서브넷 검증자와 직접 통신할 수 있습니다. 서브넷 검증자와 서브넷 채굴자 간의 이러한 양방향 통신은 인센티브 메커니즘의 프로토콜 핵심을 형성합니다. 이는 제한된 볼츠만 머신 (RBM)의 아키텍처와 매우 유사합니다.
Bittensor 역할
Bittensor 생태계에서 다음 역할로 참여할 수 있습니다:
- 서브넷 소유자: 서브넷은 생성하고 싶지만 운영을 다른 사람에게 맡기고자 하는 주체
- 서브넷 검증자: 서브넷을 운영하는 책임이 있으며, 작업을 생성하고 서브넷 채굴자의 출력을 평가하며 보상을 제공합니다.
- 서브넷 채굴자: 작업을 수행하는 주체로서 서브넷의 채굴 운영에 책임이 있는 주체
- 블록체인 운영자: 블록체인 노드를 운영하는 주체.
서브텐서
서브텐서(Subtensor)는 로컬 체인, 테스트 체인 또는 메인 체인과 상호 작용을 처리하는 Bittensor 객체입니다.
초기 성공에도 불구하고 Bittensor는 현재 토큰 분배 및 인센티브 모델에서 문제를 겪고 있습니다. 특히 아래와 같은 문제점들이 부각되고 있습니다.
- 경제 모델 문제: 인센티브 게임화, 중계 채굴, 검증자가 실제로 올바른 출력을 알고 있다는 가정 등과 같은 문제들이 주요 도전 과제입니다. 각 서브넷의 가치 기여를 시장의 힘에 의존해 결정하는 것은 장기적인 전략적 개발에 최적화되어 있지 않습니다.
- 서브넷의 경쟁적 도전 과제: 일부 Bittensor 서브넷은 일반적인 이미지 및 텍스트 생성과 같은 분야에서 기존 오픈 소스 프로젝트와 경쟁할 수 없습니다.
- 높은 네트워크 운영 비용: Bittensor는 운영 비용이 상당히 큽니다. 서브넷 소유자, 채굴자, 검증자에게 하루 7,200 TAO가 지급되는 인플레이션이 발생합니다. 이는 하루 약 320만 달러, 연간 12억 달러에 해당합니다. 이로 인해 중요한 질문이 제기됩니다: 이 자금은 어디서 오는가?
- 투명성 부족: 프로젝트는 어느 정도 분산화를 제공하지만, 오픈 소스는 아닙니다. 이로 인해 서브넷 출력을 사용하여 개발할 수 있는 응용 프로그램의 다양성이 제한됩니다.
이러한 문제들은 Bittensor가 해결해야 할 주요 도전 과제들입니다.
2. 데이터 프라이버시와 보안
다음으로 다루고 싶은 문제는 프라이버시입니다. 가능한 해결책으로는 암호화된 데이터 처리와 데이터 공유를 위한 고급 기술이 포함됩니다:
- 암호화된 데이터에 대한 기계 학습 추론 수행 (AI 모델이 암호화된 데이터로 예측 수행)
- 비밀 데이터셋 사용으로 프라이버시와 보안 강화
- 연합 학습, 차등 프라이버시 또는 안전한 다자간 계산 같은 기술 사용
- 원시 데이터 대신 데이터 인사이트만 공유
- 데이터 판매와 같은 행동에서의 데이터 공유 프로세스의 인센티브화
우리의 의견으로 가장 유망한 방법론은 다음의 교차점에 있습니다: 완전 동형 암호화(FHE)와 블록체인 인센티브를 통해 데이터 프라이버시 문제를 해결하고 협력적인 AI에 대한 요구를 충족시킵니다.
많은 유망한 프라이버시 강화 기술(PETs)이 개발되고 있습니다.
이 범주에서 가장 큰 게임 체인저는 FHE입니다. 동형 암호화의 개념은 이해하기 간단합니다: 암호화된 데이터에 직접 원하는 계산을 수행할 수 있으며, 먼저 이를 해독할 필요가 없습니다. 최종적으로 해독할 때, 기저의 평문 데이터로 계산을 수행한 것과 동일한 출력이 나옵니다.
한번 기밀 데이터가 클라우드로 전송되면, 전체 여정 동안 암호화된 상태로 유지되며, 어떤 계산이든 암호문에 대해 수행할 수 있습니다. 원하는 결과(여전히 암호화된 상태)가 데이터 소유자에게 다시 전송되면, 그들은 비밀 키를 사용하여 이를 해독하고 원하는 결과를 얻을 수 있습니다. 현재 FHE 방식의 또 다른 주요 매력은 대부분의 현대 암호화 기법이 양자 공격에 취약한 반면, FHE는 양자 안전하다는 점입니다.
동형 암호화의 개념은 수십 년 전, 1970년대 후반 RSA의 도입(자체가 부분적으로 동형 암호화된) 이후 처음 연구가 시작된 이래로 존재해 왔습니다. 2009년에 FHE 개념이 도입되었지만, 여전히 많은 기술적 과제를 안고 있습니다. 그 중 가장 큰 문제는 계산 속도입니다.
또한, 이 계산 모델 하에서 기계 학습 모델을 적용하는 것은 개발자들이 극복해야 할 추가적인 장애물을 도입합니다. 그러나 현대의 FHE 라이브러리는 이제 전문가 수준의 암호화 지식 없이도 FHE를 점점 더 쉽게 사용할 수 있도록 하고 있습니다.
Privasea
FHE의 주목할 만한 응용 중 하나는 Privasea라는 프로젝트입니다.
Privasea AI Network는 FHE를 핵심 기술로 사용하는 프라이버시 보존 머신러닝 프로젝트입니다. 이 프로젝트는 사용자 데이터와 분산 컴퓨팅 파워 간의 격차를 해소하면서 보안을 보장하는 것을 목표로 합니다.
FHE의 구현을 촉진하기 위해 Privasea는 HESea라는 기본 FHE 라이브러리를 통합합니다. 이 라이브러리는 개발자에게 암호화된 데이터에서 안전하게 계산을 수행할 수 있는 필수 도구와 기능을 제공합니다. 여기에는 덧셈, 곱셈, 심지어 머신러닝 모델 평가도 포함됩니다. HESea는 사용자가 프라이버시를 침해하지 않고도 데이터의 잠재력을 최대한 활용할 수 있도록 지원합니다.
Privasea AI Network는 사용자가 네트워크와 상호작용을 쉽게 할 수 있도록 하는 사용자 친화적인 인터페이스인 Application API를 제공합니다. Privasea API를 통해 사용자는 데이터를 안전하게 제출하고, 모델 훈련을 요청하며, 예측 결과를 얻을 수 있고, 이 모든 과정에서 종단 간 암호화의 혜택을 누릴 수 있습니다. API는 암호화 및 복호화 과정을 매끄럽게 처리하여 FHE의 복잡성을 추상화하면서 데이터 프라이버시와 보안을 보장합니다.
암호화된 데이터에서 계산을 실행하는 것을 촉진하는 Privanetix는 다수의 노드로 구성된 분산 계산 네트워크로, Privasea 아키텍처의 핵심 부분입니다. 고성능 기계와 통합된 HESea 라이브러리로 구성된 Privanetix는 암호화된 데이터에서 FHE 기반 작업을 수행하는 데 필요한 계산 자원을 제공합니다. Privanetix 노드 간의 협업을 통해 프라이버시를 보장하는 머신러닝 작업의 효율적이고 확장성 있는 실행이 이뤄집니다.
활발한 참여를 장려하고 협력적인 생태계를 조성하기 위해 Privasea Network는 블록체인 기반의 인센티브 메커니즘을 도입합니다. 블록체인에 배포된 스마트 계약을 통해 이 인센티브 메커니즘은 Privanetix 노드의 등록 및 기여를 추적하고, 계산을 검증하며, 이에 따라 적극적인 참가자들에게 보상을 제공합니다. 이를 통해 기여자들이 자신의 계산 자원을 제공하도록 동기 부여를 하면서 네트워크 전반에 걸쳐 투명성과 공정성을 유지할 수 있습니다.
완전 동형 암호화의 힘, HESea 라이브러리의 단순성, Privasea API의 접근성, Privanetix의 계산 능력, 그리고 블록체인 기반 인센티브 메커니즘의 공정성을 결합함으로써 Privasea는 다양한 분야에서 프라이버시를 보장하는 AI 응용 프로그램을 위한 길을 열어줍니다. 프로젝트의 핵심 부분은 여전히 개발 중이며, 현재는 단순한 예제들만을 대상으로 작동합니다. 일반적으로 암호화된 계산은 속도와 효율성에 대한 우려를 제기합니다.
To be continued…
지금까지 우리는 중앙 집중식 인공지능의 문제점과 일부 해결책에 대해 논의했습니다. 더 많은 해결책을 알아보려면, 우리의 연구 2부를 읽어주세요.