拿起鎚子,敲下去

如何幫項目打分數 (下)

Terry Huang
Blockcast Lab & Research 區塊客研究室
11 min readMay 16, 2019

--

我們真正想做的事情,是在加密產業建立一個資料導向的決策流程,讓相關的討論有一個成熟可信的依據。

前言

上篇文章中,我們提到在眾籌投資市場,缺乏以「建立資料導向的決策流程」為取向的評分機制,因此我們便興起了建立一套完全奠基於客觀數據的項目評分模型,然而具體上我們是怎麼做的呢?

在資料分析領域,當我們想要進行統計建模時,首先要確認我們要預測哪個標的,其次則是用什麼預測。在上一篇文章中我們提到預測標的是 Short-Term ROI 之後,現在讓我們來想想要用什麼「Inputs」來料理這道菜。

輸入的選擇

當前在評估一個區塊鏈項目的品質時,主要是以下列六個面向進行分析:

評估眾籌項目的 6 個面向

其中,尤其以團隊成員、VC 名單與代幣發行規則三者佔據較高的影響力。當我們在選擇使用哪些指標 (Features) 當作模型的輸入進行測試時,我們需要考量到該指標:

  • 是否容易取得;
  • 是否客觀正確;

再經過幾番調研與測試之後,我們最終選擇「團隊成員」與「代幣發行規則」的兩類指標當作輸入,而捨棄其他類別。個別的原因描述於下:

  • VC 名單:收集 VC 名單的第一個選擇是透過項目的官方網站查找,其次是 crunchbase 等第三方資料收集網站。然而在我們初步嘗試後,發現仍有許多項目的官方網站找不到相關資料,在第三方的網站的資料也是殘缺不全,所以只能捨棄這個關鍵類別。
  • 技術概念:該類別的大多數指標都需要主觀定義,比方說判斷技術水平、是否創新、市場競爭狀況等,所以暫略不計。
  • 官網及白皮書:主觀判定成分高。
  • 社群狀態:在考量社群時,我們首重項目在上交易所前 Telegram 與 Twitter 的狀態,例如當時 Twitter 的周均發文數或 Telegram 的日活躍月戶數、日均討論次數、日均發文次數等,有些資料現在已難以計算,能計算的也需要下一些功夫處理,所以跳過。

在決定好輸入的指標類別後,我們再釐清思路框架。定性而言,一個加密貨幣 A 的價格判定可表達成:

其中,

Factor(A,USD):大環境對幣種 A 的價值判定;

Factor(A,Crypto):加密市場對幣種 A 的價值判定;

Factor(Crypto,USD):大環境對加密市場的價值判定;

Factor(A,Crypto) * Factor(Crypto,USD):糾纏項。

這樣的表達式也在 Binance Research 的一篇報告中提及。按照上述的想法,我們只要設定好用哪些指標來組成 Factor(A,Crypto) 與 Factor(Crypto,USD) ,便可以建構起大環境對幣種 A 的價值判定模型了。

關於 Factor(Crypto,USD) 的想法

General Features vs Date

在分析數種用來衡量「大環境對加密市場的信心」這件事情上,最終我們選定了以下三種:

  • Price(BTC,USD):CoinMarketCap 上,比特幣對美元的歷史價格。由於比特幣是當前流動性最廣且市值占比最高的幣種,傳統投資圈跨入加密市場的頭一個選擇也是比特幣,用比特幣價格來衡量該因子也就顯得直觀。
  • BTC Dominance:CoinMarketCap 上,比特幣市值占比。通常而言, BTC Dominance 上升的原因可分成兩種:(I) 對比特幣的信心增強;(II) 對其他幣種的信心減弱。兩者看起來相同,差別在於主體不同。舉例而言,從 2019 年 4 月初開始,比特幣價格從 4,000 美元上漲到 5 月份中的 8,000 美元,與此同時 BTC Dominance 從 50 % 拉升到 60 %,這個上漲過程的起始原因是 (I) 而非 (II) 。同理,BTC Dominance 下滑的原因也可分為:(III) 對比特幣的信心減弱;(IV) 對其他幣種的信心增強。在 2018 年年初小幣狂漲的階段,BTC Dominance 一度滑落到 32 %,是由於 (IV) 而非 (III)。我們把 BTC Dominance 放入模型中的緣故,在於擷取其對衡量 (I) 跟 (III) 的有效性。另外,對於 (I) ~ (IV) 之間先後發生的影響與研究,不在這次的討論範圍。
  • Fear & Greed Index (FGI):FGI 是第三方組織根據加密市場的波動性、交易量、社群媒體分析、市場調查、市值占比與趨勢等因素組合而成的單一指標,數字越大代表當前加密市場越貪婪;越小代表越恐慌。由於資料完整透明且經過量化,雖然含有主觀判定的成份在裡頭,我們經過各種測試後發現該指標對於模型建構是有幫助的,所以添加進來。
Fear & Greed Index

關於 Factor(A,Crypto) 的想法之一:代幣發行規則

在前面帶到的評估區塊鏈項目的六個面向,實際上便反應加密產業圈內人判定項目價值的依據。所以,我們將以「代幣發行規則」與「團隊成員」來衡量 Factor(A,Crypto)。在我們收集資料的過程中,我們發現有幾個指標的資料相對完整,分別是:

  1. 眾籌價格;
  2. 總代幣數;
  3. 總募資金額;
  4. 初始市值 (預估值);
  5. 代幣起始流通量 (Initial Circulating Supply, ICS);
  6. 代幣起始流通量佔比。

若再添加其他項指標,則會因資料齊全的項目數急速減少而不利模型的發展,所以最後就敲定這 6 項佐料。

關於 Factor(A,Crypto) 的想法之二:團隊成員

為了要量化團隊成員指標,並且從客觀資料為起點,我們首先篩選出項目的核心成員,將這些成員的 (I) 性別 與在 Linkedin 上的 (II) 學歷 (III) 工作經歷收集起來,進行資料清洗、資料探索,定義新的指標,並放入模型之中。

Mainframe 這個項目為例,我們認為團隊中具備決策能力的成員能夠反映團隊整體的水準,所以定義以下頭銜的成員為「團隊的核心成員」:

  • Funder
  • Co-Funder
  • Chief X Officer
  • Vice President
  • Director
  • Head of X
  • Principal X
Mainframe 的部分團隊核心成員

接著,我們前往這些成員的 Linkedin 收集相應的學歷與工作經歷,例如學校名稱與學位、每個工作階段的時間長短與位階等。我們最終收集千名核心成員近萬筆的學經歷資料。

核心成員資料的初步探索

在我們所進行的資料探索過程中,在核心成員的部分看見比較有趣的現象,所以我們來談談這一個部分。

下圖是 343 個項目的 1,036 名核心成員的數據,核心成員數介於 1 ~ 8 人,平均一個項目有 3 名。另外,核心成員團隊中,女性成員數介於 0 ~ 2 人不等。

核心成員數與其男女分佈

人多嘴雜?

下左圖描繪 log10(Short-Term ROI) 與核心成員數的變化圖,縱向直線代表 Error Bar。資料量越多,則 Error Bar 越短;資料量越少,則 Error Bar 越長。由於是以 log-scale 表現,若轉化成 linear-scale 的話,變化會更顯著。

如果撇開資料量不足而使得誤差範圍較大的 6 ~ 8 名核心成員數的 3 個點,我們可以發現隨著核心成員數增加,其 Short-Term ROI 逐步下滑。這或許暗示著決策層的意見變多,那麼團隊的發展將會受阻礙。

而在右下圖中,我們針對這兩個指標進行簡單的線性回歸,得到代表結果的藍色實線與代表信賴區間的藍色陰影。由於信賴區間並未涵蓋水平紅線,表示兩指標間的確實存在負相關性,因此這個結果值得玩味,建議新創團隊可以參考 (?)。

log10(Short-Term ROI) vs 核心成員數

女成員的正面影響?

另一方面,下圖中的橫坐標 F/M 指的是「女性與男性核心成員數的比率區間」,其中「None」表示全男性團隊;「Half」 代表 F/M = 0.33 ~ 0.67,也就是女男比是 1:3、1:2 或 2:3 ,「All」代表女性居多的核心團隊。隨著 F/M 的增加,相應的 Short-Term ROI 也隨著提高,或許暗示著女性決策者的參與對團隊的發展起到關鍵的影響。

log10(Short-Term ROI) vs F/M

談談學歷的影響

QS World University Rankings

在量化核心成員學歷的方法,我們運用第三方世界大學排名名單 QS World University Rankings 2019 的資料進行處理。左下圖把排名前 1,000 名的大學切成 5 個區間,從排名前 100 大的「Tier 5」到排名在 1,000 後面的「Tier 0」。可以看見在我們收集的名單中,大多數核心成員畢業於世界前百大學校。

而右下圖的線性迴歸也表明,學歷與投報率之間存在正向的關聯性。

定義關鍵指標

在進行資料探索的過程中,我們同時也開始探索新的指標來當作模型的輸入,藉此獲得新的洞見與更好的模型,其中一個我們稱作「企業家指標」(Entrepreneurship Index)

Entrepreneurship Index
  • j:一特定團隊的第 j 名核心成員。
  • i:該成員的第 i 項工作經歷。
  • tier:第 i 項工作的職稱的分級。
  • time:第 i 項工作期長。
  • duration:該名成員的總工作期長。

將一個核心成員團隊中,每個成員根據上式計算而得的數字加總起來,變成了企業家指標,結果呈現於下圖的縱軸。企業家指標在衡量團隊水準方面具備簡潔易懂與代表性,對模型而言是一個關鍵指標

企業家指標 vs 總工作期長

最佳模型與其結果

我們將預測標的 Short-Term ROI 切成三個層級:Low、Medium 與 High,運用前面提及的輸入指標進行預測。在我們進行 Modeling 的過程中,曾經嘗試的演算法共有:

  • Logistic Regression
  • Random Forest Embedding + Logistic
  • Polynomial + Logistic Regression
  • KNN
  • Naive Bayes
  • Support Vector Machine
  • Kernel SVC
  • XGBoost

從結果論,是被稱為競賽神器的 XGBoost (eXtreme Gradient Boosting) 得到最好的結果,其精確度比隨機猜測提高 60 %。。2015 年,在全球最大的資料分析競賽平台 Kaggle 上的 29 個冠軍隊伍中,有 17 個團隊在他們的模型中使用 XGBoost,足可見其威力。

但和預測模型本身相比,我們認為更重要的結果是輸入指標的重要性排序,這大致可以歸納成四個要點:

  • 大環境指標 > 核心團隊素質 > 代幣發行規則。
  • 大環境指標:BTC Dominance > Price(BTC,USD)。
  • 核心成員素質:企業家指標 > 學歷。
  • 代幣發行規則:起始流通量與占比最重要。

展望

透過這兩篇文章,我們帶你走過在加密產業建立一個項目評級模型的過程,並得出許多有意義的結果。

然而,我們真正想做的事情,是在加密產業建立一個資料導向的決策流程,讓相關的討論有一個成熟可信的依據,藉此深入了解評估一個區塊鏈項目時,我們應該重視的是什麼事情。

這裡只是一個起始點,往後我們將把這套方法論運用在其他方面上,例如二級市場幣種高/低估判定的模型上。

如果這篇文章充實了你,不妨留下記錄,日後才知道是什麼豐富了生命。

--

--