拿起鎚子,敲下去
如何幫項目打分數 (下)
我們真正想做的事情,是在加密產業建立一個資料導向的決策流程,讓相關的討論有一個成熟可信的依據。
前言
在上篇文章中,我們提到在眾籌投資市場,缺乏以「建立資料導向的決策流程」為取向的評分機制,因此我們便興起了建立一套完全奠基於客觀數據的項目評分模型,然而具體上我們是怎麼做的呢?
在資料分析領域,當我們想要進行統計建模時,首先要確認我們要預測哪個標的,其次則是用什麼預測。在上一篇文章中我們提到預測標的是 Short-Term ROI 之後,現在讓我們來想想要用什麼「Inputs」來料理這道菜。
輸入的選擇
當前在評估一個區塊鏈項目的品質時,主要是以下列六個面向進行分析:
其中,尤其以團隊成員、VC 名單與代幣發行規則三者佔據較高的影響力。當我們在選擇使用哪些指標 (Features) 當作模型的輸入進行測試時,我們需要考量到該指標:
- 是否容易取得;
- 是否客觀正確;
再經過幾番調研與測試之後,我們最終選擇「團隊成員」與「代幣發行規則」的兩類指標當作輸入,而捨棄其他類別。個別的原因描述於下:
- VC 名單:收集 VC 名單的第一個選擇是透過項目的官方網站查找,其次是 crunchbase 等第三方資料收集網站。然而在我們初步嘗試後,發現仍有許多項目的官方網站找不到相關資料,在第三方的網站的資料也是殘缺不全,所以只能捨棄這個關鍵類別。
- 技術概念:該類別的大多數指標都需要主觀定義,比方說判斷技術水平、是否創新、市場競爭狀況等,所以暫略不計。
- 官網及白皮書:主觀判定成分高。
- 社群狀態:在考量社群時,我們首重項目在上交易所前 Telegram 與 Twitter 的狀態,例如當時 Twitter 的周均發文數或 Telegram 的日活躍月戶數、日均討論次數、日均發文次數等,有些資料現在已難以計算,能計算的也需要下一些功夫處理,所以跳過。
在決定好輸入的指標類別後,我們再釐清思路框架。定性而言,一個加密貨幣 A 的價格判定可表達成:
其中,
Factor(A,USD):大環境對幣種 A 的價值判定;
Factor(A,Crypto):加密市場對幣種 A 的價值判定;
Factor(Crypto,USD):大環境對加密市場的價值判定;
Factor(A,Crypto) * Factor(Crypto,USD):糾纏項。
這樣的表達式也在 Binance Research 的一篇報告中提及。按照上述的想法,我們只要設定好用哪些指標來組成 Factor(A,Crypto) 與 Factor(Crypto,USD) ,便可以建構起大環境對幣種 A 的價值判定模型了。
關於 Factor(Crypto,USD) 的想法
在分析數種用來衡量「大環境對加密市場的信心」這件事情上,最終我們選定了以下三種:
- Price(BTC,USD):CoinMarketCap 上,比特幣對美元的歷史價格。由於比特幣是當前流動性最廣且市值占比最高的幣種,傳統投資圈跨入加密市場的頭一個選擇也是比特幣,用比特幣價格來衡量該因子也就顯得直觀。
- BTC Dominance:CoinMarketCap 上,比特幣市值占比。通常而言, BTC Dominance 上升的原因可分成兩種:(I) 對比特幣的信心增強;(II) 對其他幣種的信心減弱。兩者看起來相同,差別在於主體不同。舉例而言,從 2019 年 4 月初開始,比特幣價格從 4,000 美元上漲到 5 月份中的 8,000 美元,與此同時 BTC Dominance 從 50 % 拉升到 60 %,這個上漲過程的起始原因是 (I) 而非 (II) 。同理,BTC Dominance 下滑的原因也可分為:(III) 對比特幣的信心減弱;(IV) 對其他幣種的信心增強。在 2018 年年初小幣狂漲的階段,BTC Dominance 一度滑落到 32 %,是由於 (IV) 而非 (III)。我們把 BTC Dominance 放入模型中的緣故,在於擷取其對衡量 (I) 跟 (III) 的有效性。另外,對於 (I) ~ (IV) 之間先後發生的影響與研究,不在這次的討論範圍。
- Fear & Greed Index (FGI):FGI 是第三方組織根據加密市場的波動性、交易量、社群媒體分析、市場調查、市值占比與趨勢等因素組合而成的單一指標,數字越大代表當前加密市場越貪婪;越小代表越恐慌。由於資料完整透明且經過量化,雖然含有主觀判定的成份在裡頭,我們經過各種測試後發現該指標對於模型建構是有幫助的,所以添加進來。
關於 Factor(A,Crypto) 的想法之一:代幣發行規則
在前面帶到的評估區塊鏈項目的六個面向,實際上便反應加密產業圈內人判定項目價值的依據。所以,我們將以「代幣發行規則」與「團隊成員」來衡量 Factor(A,Crypto)。在我們收集資料的過程中,我們發現有幾個指標的資料相對完整,分別是:
- 眾籌價格;
- 總代幣數;
- 總募資金額;
- 初始市值 (預估值);
- 代幣起始流通量 (Initial Circulating Supply, ICS);
- 代幣起始流通量佔比。
若再添加其他項指標,則會因資料齊全的項目數急速減少而不利模型的發展,所以最後就敲定這 6 項佐料。
關於 Factor(A,Crypto) 的想法之二:團隊成員
為了要量化團隊成員指標,並且從客觀資料為起點,我們首先篩選出項目的核心成員,將這些成員的 (I) 性別 與在 Linkedin 上的 (II) 學歷 (III) 工作經歷收集起來,進行資料清洗、資料探索,定義新的指標,並放入模型之中。
以 Mainframe 這個項目為例,我們認為團隊中具備決策能力的成員能夠反映團隊整體的水準,所以定義以下頭銜的成員為「團隊的核心成員」:
- Funder
- Co-Funder
- Chief X Officer
- Vice President
- Director
- Head of X
- Principal X
接著,我們前往這些成員的 Linkedin 收集相應的學歷與工作經歷,例如學校名稱與學位、每個工作階段的時間長短與位階等。我們最終收集千名核心成員近萬筆的學經歷資料。
核心成員資料的初步探索
在我們所進行的資料探索過程中,在核心成員的部分看見比較有趣的現象,所以我們來談談這一個部分。
下圖是 343 個項目的 1,036 名核心成員的數據,核心成員數介於 1 ~ 8 人,平均一個項目有 3 名。另外,核心成員團隊中,女性成員數介於 0 ~ 2 人不等。
人多嘴雜?
下左圖描繪 log10(Short-Term ROI) 與核心成員數的變化圖,縱向直線代表 Error Bar。資料量越多,則 Error Bar 越短;資料量越少,則 Error Bar 越長。由於是以 log-scale 表現,若轉化成 linear-scale 的話,變化會更顯著。
如果撇開資料量不足而使得誤差範圍較大的 6 ~ 8 名核心成員數的 3 個點,我們可以發現隨著核心成員數增加,其 Short-Term ROI 逐步下滑。這或許暗示著決策層的意見變多,那麼團隊的發展將會受阻礙。
而在右下圖中,我們針對這兩個指標進行簡單的線性回歸,得到代表結果的藍色實線與代表信賴區間的藍色陰影。由於信賴區間並未涵蓋水平紅線,表示兩指標間的確實存在負相關性,因此這個結果值得玩味,建議新創團隊可以參考 (?)。
女成員的正面影響?
另一方面,下圖中的橫坐標 F/M 指的是「女性與男性核心成員數的比率區間」,其中「None」表示全男性團隊;「Half」 代表 F/M = 0.33 ~ 0.67,也就是女男比是 1:3、1:2 或 2:3 ,「All」代表女性居多的核心團隊。隨著 F/M 的增加,相應的 Short-Term ROI 也隨著提高,或許暗示著女性決策者的參與對團隊的發展起到關鍵的影響。
談談學歷的影響
在量化核心成員學歷的方法,我們運用第三方世界大學排名名單 QS World University Rankings 2019 的資料進行處理。左下圖把排名前 1,000 名的大學切成 5 個區間,從排名前 100 大的「Tier 5」到排名在 1,000 後面的「Tier 0」。可以看見在我們收集的名單中,大多數核心成員畢業於世界前百大學校。
而右下圖的線性迴歸也表明,學歷與投報率之間存在正向的關聯性。
定義關鍵指標
在進行資料探索的過程中,我們同時也開始探索新的指標來當作模型的輸入,藉此獲得新的洞見與更好的模型,其中一個我們稱作「企業家指標」(Entrepreneurship Index):
- j:一特定團隊的第 j 名核心成員。
- i:該成員的第 i 項工作經歷。
- tier:第 i 項工作的職稱的分級。
- time:第 i 項工作期長。
- duration:該名成員的總工作期長。
將一個核心成員團隊中,每個成員根據上式計算而得的數字加總起來,變成了企業家指標,結果呈現於下圖的縱軸。企業家指標在衡量團隊水準方面具備簡潔易懂與代表性,對模型而言是一個關鍵指標。
最佳模型與其結果
我們將預測標的 Short-Term ROI 切成三個層級:Low、Medium 與 High,運用前面提及的輸入指標進行預測。在我們進行 Modeling 的過程中,曾經嘗試的演算法共有:
- Logistic Regression
- Random Forest Embedding + Logistic
- Polynomial + Logistic Regression
- KNN
- Naive Bayes
- Support Vector Machine
- Kernel SVC
- XGBoost
從結果論,是被稱為競賽神器的 XGBoost (eXtreme Gradient Boosting) 得到最好的結果,其精確度比隨機猜測提高 60 %。。2015 年,在全球最大的資料分析競賽平台 Kaggle 上的 29 個冠軍隊伍中,有 17 個團隊在他們的模型中使用 XGBoost,足可見其威力。
但和預測模型本身相比,我們認為更重要的結果是輸入指標的重要性排序,這大致可以歸納成四個要點:
- 大環境指標 > 核心團隊素質 > 代幣發行規則。
- 大環境指標:BTC Dominance > Price(BTC,USD)。
- 核心成員素質:企業家指標 > 學歷。
- 代幣發行規則:起始流通量與占比最重要。
展望
透過這兩篇文章,我們帶你走過在加密產業建立一個項目評級模型的過程,並得出許多有意義的結果。
然而,我們真正想做的事情,是在加密產業建立一個資料導向的決策流程,讓相關的討論有一個成熟可信的依據,藉此深入了解評估一個區塊鏈項目時,我們應該重視的是什麼事情。
這裡只是一個起始點,往後我們將把這套方法論運用在其他方面上,例如二級市場幣種高/低估判定的模型上。
如果這篇文章充實了你,不妨留下記錄,日後才知道是什麼豐富了生命。
1 ~ 10 下 我看了。11 ~ 30下 我喜歡。31 ~ 50下 希望可以寫更多這類型的文章。