量量者:實驗與量度技術的價值

Bryan Liu
Sep 16, 2020

--

(In English: Measuring the measurer: What’s the value of experimentation & measurement?

過去十年,實驗與量度(Experimentation & Measurement)於科網界漸趨普及。其領域包含A/B測試、計量經濟學、因果推論等系統及技術。借助近年大數據機遇,大型企業如谷歌、臉書、微軟、亞馬遜等每年均進行上萬實驗,以了解用户需求及量度各產品、服務及概念的影響力(參見:《哈佛商業評論》專欄報導)。

儘管我們經常使用各種實驗與量度技術來測量各項目的價值,卻不甚了解技術本身的價值。「量量者,難也」可能是對此現象最好的概述。因此,各組織謀劃時容易因系統及技術價值不明而將其怱略。企業若要有效投資實驗與量度系統及技術,必先要了解其本身價值。

量量者,難也。

三個觀點看價值

實驗與量度系統及技術的價值可從以下三個範疇去推算:

其一、產品價值認知:透過不同實驗,各組織可認證概念價值,並盡早隔離及移除無效產品或服務以保障整體成果。

其二、完善產品質素:組織可並行試驗大量不同產品微調,並以汰弱留強方式從多達二十九類變數中選取最為用家歡迎組合(參見:布朗與鍾斯有關各種變數白皮書)。

其三、支援優先排序:實驗與量度技術可令組織作更準確項目價值估算,消除不穩定性,從而提高決策素質。

於上述三個範疇當中,又以推算支援優先排序的價值最具挑戰性。其它範疇因篇幅有限,故略而不談。

推算優先排序價值

要了解高素質優先排序的價值,我們必先要了解何謂高素質優先排序。

用一初創企業為例,假設有四個項目,姑且名為蘋果、柳橙、香蕉及葡萄。團隊能從四個項目當中任選兩項作業。決策人理應按項目價值將其排序,並優先處理首兩個項目。

四個項目據(真實)項目價值排序,分別名為蘋果、柳橙、香蕉及葡萄。

假若決策人已得知各項目的真實價值,優先排序應無難度,此文亦可作結。現實上要事前(甚或事後)得知一項目的真實價值根本就無從入手。決策人往往只能估量項目價值,並以估量價值為優先排序依據。

此等估量價值或多或少帶點不確定性。從統計學觀點出發,我們可將估量價值看成是真實價值的變異(variation),形成一機率分佈。如此,估量步驟與從該機率分佈抽樣無異。

估量價值可被看成是真實價值的變異,形成一機率分佈(橫線代表價值的變量)。如此估量就如從該機率分佈抽樣。

於無實驗與量度技術的情況下,決策人只能粗略估計項目價值,帶來高不穩定性。於估計(抽樣)過程中,低真實價值項目(如上圖所示蘋果)容易因純粹僥倖而被估成一高價值項目(抽出一高數值樣本)。該項目於優先排序過程中會躍過其他高真實價值項目,而被優先處理。

由此可見,於高不穩定性的環境下作優先排序,容易導致決策人選取低真實價值項目,拖低各項目總真實價值。值得留意的是,由於各項目的真實價值均不得而知,此現象往往被各決策人忽視。

當我們降低估量不確定性,高真實價值項目(如香蕉)有較大機會因自身價值較高而被優先排序。

如前所述,實驗與量度技術能助我們降低估量的不確定性,並大幅減低項目估量價值躍過其它項目的可能性。高真實價值項目(如香蕉)能因自身價值較高而被優先排序,據估量價值排序亦會根據真實價值排序結果較相近。如此,決策人能更有效用「項」唯才。

實驗與量度系統及技術技術自身的價值,就是低不穩定性下選取的項目(葡萄與香蕉)及高不穩定性下選取的項目(葡萄與蘋果)的價值差。通過此等界定,我們可以比較技術相對其它項目的價值,從而有效構寫商業論證。

通用情形

於上述例子,我們假設組織能四選二。當然,不同組織各有不同專項,團隊的能力各異,各估量方法準繩度亦有天淵之別。

我們的研究,就是在不同情形下如何推算出實驗與量度系統及技術能帶來的價值,以及投資風險。研究利用順序統計(Order Statistics)及貝葉斯推斷(Bayesian Inference)等技巧,構成一通用公式。

詳細結果(包括理論模型、價值公式、實驗結果)已於 2019 IEEE 國際數據挖掘會議 (ICDM) 發表,並於《數據科學及工程》期刊刊登,歡迎參閲。

作者 廖澤軒

現於英國時裝網購 ASOS 任機器學習應用研究人員,並於倫敦帝國學院及牛津大學合辨 現代統計學及機器學習中心 攻讀博士課程。研究興趣以實驗設計及因果推論為主,應用機器學習為副。望能減少決策偏誤、提升決策效率。

--

--

Bryan Liu

Machine Learning Scientist at ASOS.com and PhD student at Imperial College London.