量量者：實驗與量度技術的價值

Sep 16, 2020

（In English: Measuring the measurer: What’s the value of experimentation & measurement?）

過去十年，實驗與量度(Experimentation & Measurement)於科網界漸趨普及。其領域包含A/B測試、計量經濟學、因果推論等系統及技術。借助近年大數據機遇，大型企業如谷歌、臉書、微軟、亞馬遜等每年均進行上萬實驗，以了解用户需求及量度各產品、服務及概念的影響力(參見:《哈佛商業評論》專欄報導)。

儘管我們經常使用各種實驗與量度技術來測量各項目的價值，卻不甚了解技術本身的價值。「量量者，難也」可能是對此現象最好的概述。因此，各組織謀劃時容易因系統及技術價值不明而將其怱略。企業若要有效投資實驗與量度系統及技術，必先要了解其本身價值。

三個觀點看價值

實驗與量度系統及技術的價值可從以下三個範疇去推算：

其一、產品價值認知：透過不同實驗，各組織可認證概念價值，並盡早隔離及移除無效產品或服務以保障整體成果。

其二、完善產品質素：組織可並行試驗大量不同產品微調，並以汰弱留強方式從多達二十九類變數中選取最為用家歡迎組合（參見：布朗與鍾斯有關各種變數白皮書）。

其三、支援優先排序：實驗與量度技術可令組織作更準確項目價值估算，消除不穩定性，從而提高決策素質。

於上述三個範疇當中，又以推算支援優先排序的價值最具挑戰性。其它範疇因篇幅有限，故略而不談。

推算優先排序價值

要了解高素質優先排序的價值，我們必先要了解何謂高素質優先排序。

用一初創企業為例，假設有四個項目，姑且名為蘋果、柳橙、香蕉及葡萄。團隊能從四個項目當中任選兩項作業。決策人理應按項目價值將其排序，並優先處理首兩個項目。

假若決策人已得知各項目的真實價值，優先排序應無難度，此文亦可作結。現實上要事前（甚或事後）得知一項目的真實價值根本就無從入手。決策人往往只能估量項目價值，並以估量價值為優先排序依據。

此等估量價值或多或少帶點不確定性。從統計學觀點出發，我們可將估量價值看成是真實價值的變異（variation），形成一機率分佈。如此，估量步驟與從該機率分佈抽樣無異。

估量價值可被看成是真實價值的變異，形成一機率分佈（橫線代表價值的變量）。如此估量就如從該機率分佈抽樣。

於無實驗與量度技術的情況下，決策人只能粗略估計項目價值，帶來高不穩定性。於估計（抽樣）過程中，低真實價值項目（如上圖所示蘋果）容易因純粹僥倖而被估成一高價值項目（抽出一高數值樣本）。該項目於優先排序過程中會躍過其他高真實價值項目，而被優先處理。

由此可見，於高不穩定性的環境下作優先排序，容易導致決策人選取低真實價值項目，拖低各項目總真實價值。值得留意的是，由於各項目的真實價值均不得而知，此現象往往被各決策人忽視。

當我們降低估量不確定性，高真實價值項目（如香蕉）有較大機會因自身價值較高而被優先排序。

如前所述，實驗與量度技術能助我們降低估量的不確定性，並大幅減低項目估量價值躍過其它項目的可能性。高真實價值項目（如香蕉）能因自身價值較高而被優先排序，據估量價值排序亦會根據真實價值排序結果較相近。如此，決策人能更有效用「項」唯才。

實驗與量度系統及技術技術自身的價值，就是低不穩定性下選取的項目（葡萄與香蕉）及高不穩定性下選取的項目（葡萄與蘋果）的價值差。通過此等界定，我們可以比較技術相對其它項目的價值，從而有效構寫商業論證。

通用情形

於上述例子，我們假設組織能四選二。當然，不同組織各有不同專項，團隊的能力各異，各估量方法準繩度亦有天淵之別。

我們的研究，就是在不同情形下如何推算出實驗與量度系統及技術能帶來的價值，以及投資風險。研究利用順序統計（Order Statistics）及貝葉斯推斷（Bayesian Inference）等技巧，構成一通用公式。

詳細結果（包括理論模型、價值公式、實驗結果）已於 2019 IEEE 國際數據挖掘會議 (ICDM) 發表，並於《數據科學及工程》期刊刊登，歡迎參閲。

作者廖澤軒

現於英國時裝網購 ASOS 任機器學習應用研究人員，並於倫敦帝國學院及牛津大學合辨現代統計學及機器學習中心攻讀博士課程。研究興趣以實驗設計及因果推論為主，應用機器學習為副。望能減少決策偏誤、提升決策效率。

量量者：實驗與量度技術的價值

三個觀點看價值

推算優先排序價值

通用情形

Written by Bryan Liu