拿起鎚子，敲下去

如何幫項目打分數 (下)

Terry Huang

Published in

Blockcast Lab & Research 區塊客研究室

11 min readMay 16, 2019

我們真正想做的事情，是在加密產業建立一個資料導向的決策流程，讓相關的討論有一個成熟可信的依據。

前言

在上篇文章中，我們提到在眾籌投資市場，缺乏以「建立資料導向的決策流程」為取向的評分機制，因此我們便興起了建立一套完全奠基於客觀數據的項目評分模型，然而具體上我們是怎麼做的呢？

在資料分析領域，當我們想要進行統計建模時，首先要確認我們要預測哪個標的，其次則是用什麼預測。在上一篇文章中我們提到預測標的是 Short-Term ROI 之後，現在讓我們來想想要用什麼「Inputs」來料理這道菜。

輸入的選擇

當前在評估一個區塊鏈項目的品質時，主要是以下列六個面向進行分析：

其中，尤其以團隊成員、VC 名單與代幣發行規則三者佔據較高的影響力。當我們在選擇使用哪些指標 (Features) 當作模型的輸入進行測試時，我們需要考量到該指標：

是否容易取得；
是否客觀正確；

再經過幾番調研與測試之後，我們最終選擇「團隊成員」與「代幣發行規則」的兩類指標當作輸入，而捨棄其他類別。個別的原因描述於下：

VC 名單：收集 VC 名單的第一個選擇是透過項目的官方網站查找，其次是 crunchbase 等第三方資料收集網站。然而在我們初步嘗試後，發現仍有許多項目的官方網站找不到相關資料，在第三方的網站的資料也是殘缺不全，所以只能捨棄這個關鍵類別。
技術概念：該類別的大多數指標都需要主觀定義，比方說判斷技術水平、是否創新、市場競爭狀況等，所以暫略不計。
官網及白皮書：主觀判定成分高。
社群狀態：在考量社群時，我們首重項目在上交易所前 Telegram 與 Twitter 的狀態，例如當時 Twitter 的周均發文數或 Telegram 的日活躍月戶數、日均討論次數、日均發文次數等，有些資料現在已難以計算，能計算的也需要下一些功夫處理，所以跳過。

在決定好輸入的指標類別後，我們再釐清思路框架。定性而言，一個加密貨幣 A 的價格判定可表達成：

其中，

Factor(A,USD)：大環境對幣種 A 的價值判定；

Factor(A,Crypto)：加密市場對幣種 A 的價值判定；

Factor(Crypto,USD)：大環境對加密市場的價值判定；

Factor(A,Crypto) * Factor(Crypto,USD)：糾纏項。

這樣的表達式也在 Binance Research 的一篇報告中提及。按照上述的想法，我們只要設定好用哪些指標來組成 Factor(A,Crypto) 與 Factor(Crypto,USD) ，便可以建構起大環境對幣種 A 的價值判定模型了。

關於 Factor(Crypto,USD) 的想法

在分析數種用來衡量「大環境對加密市場的信心」這件事情上，最終我們選定了以下三種：

Price(BTC,USD)：CoinMarketCap 上，比特幣對美元的歷史價格。由於比特幣是當前流動性最廣且市值占比最高的幣種，傳統投資圈跨入加密市場的頭一個選擇也是比特幣，用比特幣價格來衡量該因子也就顯得直觀。
BTC Dominance：CoinMarketCap 上，比特幣市值占比。通常而言， BTC Dominance 上升的原因可分成兩種：(I) 對比特幣的信心增強；(II) 對其他幣種的信心減弱。兩者看起來相同，差別在於主體不同。舉例而言，從 2019 年 4 月初開始，比特幣價格從 4,000 美元上漲到 5 月份中的 8,000 美元，與此同時 BTC Dominance 從 50 % 拉升到 60 %，這個上漲過程的起始原因是 (I) 而非 (II) 。同理，BTC Dominance 下滑的原因也可分為：(III) 對比特幣的信心減弱；(IV) 對其他幣種的信心增強。在 2018 年年初小幣狂漲的階段，BTC Dominance 一度滑落到 32 %，是由於 (IV) 而非 (III)。我們把 BTC Dominance 放入模型中的緣故，在於擷取其對衡量 (I) 跟 (III) 的有效性。另外，對於 (I) ~ (IV) 之間先後發生的影響與研究，不在這次的討論範圍。
Fear & Greed Index (FGI)：FGI 是第三方組織根據加密市場的波動性、交易量、社群媒體分析、市場調查、市值占比與趨勢等因素組合而成的單一指標，數字越大代表當前加密市場越貪婪；越小代表越恐慌。由於資料完整透明且經過量化，雖然含有主觀判定的成份在裡頭，我們經過各種測試後發現該指標對於模型建構是有幫助的，所以添加進來。

關於 Factor(A,Crypto) 的想法之一：代幣發行規則

在前面帶到的評估區塊鏈項目的六個面向，實際上便反應加密產業圈內人判定項目價值的依據。所以，我們將以「代幣發行規則」與「團隊成員」來衡量 Factor(A,Crypto)。在我們收集資料的過程中，我們發現有幾個指標的資料相對完整，分別是：

眾籌價格；
總代幣數；
總募資金額；
初始市值 (預估值)；
代幣起始流通量 (Initial Circulating Supply, ICS)；
代幣起始流通量佔比。

若再添加其他項指標，則會因資料齊全的項目數急速減少而不利模型的發展，所以最後就敲定這 6 項佐料。

關於 Factor(A,Crypto) 的想法之二：團隊成員

為了要量化團隊成員指標，並且從客觀資料為起點，我們首先篩選出項目的核心成員，將這些成員的 (I) 性別與在 Linkedin 上的 (II) 學歷 (III) 工作經歷收集起來，進行資料清洗、資料探索，定義新的指標，並放入模型之中。

以 Mainframe 這個項目為例，我們認為團隊中具備決策能力的成員能夠反映團隊整體的水準，所以定義以下頭銜的成員為「團隊的核心成員」：

Funder
Co-Funder
Chief X Officer
Vice President
Director
Head of X
Principal X

接著，我們前往這些成員的 Linkedin 收集相應的學歷與工作經歷，例如學校名稱與學位、每個工作階段的時間長短與位階等。我們最終收集千名核心成員近萬筆的學經歷資料。

核心成員資料的初步探索

在我們所進行的資料探索過程中，在核心成員的部分看見比較有趣的現象，所以我們來談談這一個部分。

下圖是 343 個項目的 1,036 名核心成員的數據，核心成員數介於 1 ~ 8 人，平均一個項目有 3 名。另外，核心成員團隊中，女性成員數介於 0 ~ 2 人不等。

人多嘴雜？

下左圖描繪 log10(Short-Term ROI) 與核心成員數的變化圖，縱向直線代表 Error Bar。資料量越多，則 Error Bar 越短；資料量越少，則 Error Bar 越長。由於是以 log-scale 表現，若轉化成 linear-scale 的話，變化會更顯著。

如果撇開資料量不足而使得誤差範圍較大的 6 ~ 8 名核心成員數的 3 個點，我們可以發現隨著核心成員數增加，其 Short-Term ROI 逐步下滑。這或許暗示著決策層的意見變多，那麼團隊的發展將會受阻礙。

而在右下圖中，我們針對這兩個指標進行簡單的線性回歸，得到代表結果的藍色實線與代表信賴區間的藍色陰影。由於信賴區間並未涵蓋水平紅線，表示兩指標間的確實存在負相關性，因此這個結果值得玩味，建議新創團隊可以參考 (？)。

女成員的正面影響？

另一方面，下圖中的橫坐標 F/M 指的是「女性與男性核心成員數的比率區間」，其中「None」表示全男性團隊；「Half」代表 F/M = 0.33 ~ 0.67，也就是女男比是 1:3、1:2 或 2:3 ，「All」代表女性居多的核心團隊。隨著 F/M 的增加，相應的 Short-Term ROI 也隨著提高，或許暗示著女性決策者的參與對團隊的發展起到關鍵的影響。

談談學歷的影響

在量化核心成員學歷的方法，我們運用第三方世界大學排名名單 QS World University Rankings 2019 的資料進行處理。左下圖把排名前 1,000 名的大學切成 5 個區間，從排名前 100 大的「Tier 5」到排名在 1,000 後面的「Tier 0」。可以看見在我們收集的名單中，大多數核心成員畢業於世界前百大學校。

而右下圖的線性迴歸也表明，學歷與投報率之間存在正向的關聯性。

定義關鍵指標

在進行資料探索的過程中，我們同時也開始探索新的指標來當作模型的輸入，藉此獲得新的洞見與更好的模型，其中一個我們稱作「企業家指標」(Entrepreneurship Index)：

j：一特定團隊的第 j 名核心成員。
i：該成員的第 i 項工作經歷。
tier：第 i 項工作的職稱的分級。
time：第 i 項工作期長。
duration：該名成員的總工作期長。

將一個核心成員團隊中，每個成員根據上式計算而得的數字加總起來，變成了企業家指標，結果呈現於下圖的縱軸。企業家指標在衡量團隊水準方面具備簡潔易懂與代表性，對模型而言是一個關鍵指標。

最佳模型與其結果

我們將預測標的 Short-Term ROI 切成三個層級：Low、Medium 與 High，運用前面提及的輸入指標進行預測。在我們進行 Modeling 的過程中，曾經嘗試的演算法共有：

Logistic Regression
Random Forest Embedding + Logistic
Polynomial + Logistic Regression
KNN
Naive Bayes
Support Vector Machine
Kernel SVC
XGBoost

從結果論，是被稱為競賽神器的 XGBoost (eXtreme Gradient Boosting) 得到最好的結果，其精確度比隨機猜測提高 60 %。。2015 年，在全球最大的資料分析競賽平台 Kaggle 上的 29 個冠軍隊伍中，有 17 個團隊在他們的模型中使用 XGBoost，足可見其威力。

但和預測模型本身相比，我們認為更重要的結果是輸入指標的重要性排序，這大致可以歸納成四個要點：

大環境指標 > 核心團隊素質 > 代幣發行規則。
大環境指標：BTC Dominance > Price(BTC,USD)。
核心成員素質：企業家指標 > 學歷。
代幣發行規則：起始流通量與占比最重要。

展望

透過這兩篇文章，我們帶你走過在加密產業建立一個項目評級模型的過程，並得出許多有意義的結果。

然而，我們真正想做的事情，是在加密產業建立一個資料導向的決策流程，讓相關的討論有一個成熟可信的依據，藉此深入了解評估一個區塊鏈項目時，我們應該重視的是什麼事情。

這裡只是一個起始點，往後我們將把這套方法論運用在其他方面上，例如二級市場幣種高/低估判定的模型上。

如果這篇文章充實了你，不妨留下記錄，日後才知道是什麼豐富了生命。

1 ~ 10 下 我看了。11 ~ 30下 我喜歡。31 ~ 50下 希望可以寫更多這類型的文章。