[書]Designing with Data(上）

Published in

生活那點事

9 min readSep 16, 2018

Improving the user experience with A/B testing

不論是產品規劃、行銷、系統開發或是設計人員，在現在這個時代，都需要將自己的工作結合『數據』。不僅是事後才從數據看結果，而是一開始在規劃時，就要把數據列入思考範圍內。本書教大家如何建構數據實驗，透過A/B Testing，讓最終的產出，能夠有其貢獻，並且持續不斷地提供下一次優化的討論。

架構

Ch1~3 字詞的定義、整個數據實驗的觀念與架構

Ch4~6 設計整個實驗，從定義問題、設計實驗到分析的實作討論

Ch7~8 結論

因此在此篇文章（涵蓋範圍Ch1~3）中，僅會先帶到一些名詞與定義，建立後續內容的共識。因為我也不是這方面的專家，對於統計更是模模糊糊的了解，書又是原文，所以如果發現有錯誤地方，或是有值得討論的空間，再請留言告訴我。

三種數據的認知

依據不同的情況，對數據得認知與使用時刻，可以先分成三種：

Data Driven：如果已經非常清楚問題所在，那麼數據的結果，可以直接作為決定的判斷點。

Data Informed：數據僅是其中一個做決定的判斷點，仍需要更多的研究輔佐。

Data Aware：認知有很多種的數據搜集方式可以回答不同種類的問題

兩種數據的分類

在蒐集數據時，可將數據分類為兩種：

longitudinal：長時間透過觀察同一個使用者的改變，這類的數據需要花較長的時間
snapshot：當下即可有產出，同時間觀察很多人對於一個產品的反應

另外，同時也要思考要在哪一種環境下蒐集數據，如果是在比較獨立的空間（isolation），可以排除掉其他干擾的因素，單就設計本身來討論。反之，在一個開放式的空間，或是比較貼近現實的環境（contextual），則可以看出產品或是設計在真實環境的運作。

要怎麼蒐集數據？先確認問題是什麼

蒐集數據的方式有很多，首先，必須先確認問題是屬於哪一種問題，才可以評估用量化或是質化的方式，來找到答案。例如，要透過觀察還是訪問使用者，取決於想知道決策行為還是決策原因？每一種方式都有其可能產生的偏見，單純的觀察，可能無法獲得使用者操作的原因，但若是透過訪問的方式，有可能使用者會提供我們想要聽的『正確答案』，這種行為稱之為social desirability response or acquiescence bias。

最後，需要思考採用moderate data or unmoderate data。Moderate data 需要有更充裕的人力來提供更近一步的說明與解釋，讓填答者可以在完整的認知下回覆。相反的，unmoderate data因為沒有人可以幫忙說明，則是需要有專家精心設計好題目，避免任何可能造成誤解的地方。

那麼數據的數量需要多少才夠？一般來說，有些產品的問題不需要很多的使用者反應才能確定問題，5個使用者其實就能讓我們看出85%的產品使用問題。所以再次，回到

想知道的問題是什麼？問題明確，才能找到合適的數據蒐集方式，並且產生能夠回應問題的答案。

這本書從書名就可以知道，主要是要探討如何透過A/B Testing 數據實驗優化或是改造產品、服務。基於“相關不蘊涵因果（correlation does not imply causation）”的精神，特別強調「實驗」，逐步且不斷地演進。然而，A/B Testing有其限制性，例如你無法得知使用者最終決策的原因，僅能看到結果，所以在評估時，應該要綜合性的考量，才能看得到全貌。

選擇樣本

在實驗前，樣本（test cell）的選擇也是相當重要，選取樣本的切角，需要思考，這些條件是否會影響使用者的行為？而樣本的切角，亦會影響到後續使用者溝通內容與期待。因此每次在做A/B Test時，都需要重新思考下列三個問題：

從哪一種切角切入？

書內提到了Cohort與Segment兩種切角：

Cohort：有一群擁有相同經驗的使用者，不論任何原因，有使用過產品的人或是同樣在2015年畢業的學生。反應在我自己的產品上，大概就是「在本行有買過金融商品的客戶」或是「已經有申請過網路銀行的數位客戶」。

Segment：從人口統計（demographic），使用者基本條件，例如居住地、年齡、男女、行為等選擇樣本。

如果採用基本條件去做切入，那麼將能夠獲得哪些客戶資料？

例如個人資料、使用的設備裝置型號等。

最後，想要針對既有客戶還是新客戶？

既有的客戶因為已經對產品有所認知，所以測試新的功能、服務時，會有一段時間需要適應（learning effect），不難解釋，每次app改版後，總是會有既有客戶因為使用行為被改變，而產生排斥感，但是久了以後，對新功能、服務的想法，會跟新的客戶逐漸一致。所以新的功能上線時，需要有一段時間的觀察，才有辦法確定這項功能是否能夠符合當初我們設計的用意。或者也可以思考，現在使用者是我們未來想要的使用者嗎？如果不是，那麼哪些客戶的聲音才是我們需要著重的？

指標 Metrics

用來衡量 A/B testing的結果是否有效，主要的衡量指標都應該要建立在能夠使商業模式成功，因此設立衡量指標前，可以思考三個問題：

所在的產業、型態是什麼？
收益模式？
目前的狀態是否成熟？

所有的指標也需要和創造好的使用者體驗一致，才能帶來長期正向的使用體驗。

差異要多大才算是差異？

定義「最小改善程度（minimum detectable effect (MDE)）」需要依據實際商業上的因子，例如透過這個差異能帶來多大的利潤增加。但有時候考量更長期的策略方向，即使短期沒有帶來利潤，也仍然會被執行。

如果想要增加整個實驗的說服力，則可以透過增加樣本數量來達成。

假設 Hypothesis

假設會決定你從這個實驗終將獲得的產物

當我們會想要做實驗時，總是心中有一個認為某兩個因子可能有相互的影響關係，例如改變了某個按鈕的顏色，可能會讓更多使用者想要點他。但我們也比需要知道，實驗只能夠“推翻”假設，而無法“證明”假設，如同在沒有找到黑天鵝前，我們也都無法證明所有的天鵝都是白色。

假設應該要是一段聲明，描述你相信在特定情況下，某些事會發生。通常會說成：

“If we do X, users will do Y because of Z which will impact metrics A.”

有了假設後，就能夠透過一個完整個測試規劃，來獲得你想驗證的東西。所有的實驗結果，都不能稱其為“失敗”，因為推翻了假設，也是一種學習，讓我們知道下一次的實驗方向應該要往哪邊調整

把每個人對於產品階段的標準拉齊

當大家在溝通產品的完成度時，時常會有落差。有的人覺得已經是完成的狀態，有的人認為這只是暫時的版本，這時候可以透過下列的架構，把大家的想法拉齊

先想一下目前問題的規模，以及你距離解決這個問題還有多遠？是在尋找一個解決方案，還是在想要創造一個新的功能？願意花多少資源、時間去改變？付出的成本是否能夠對評估指標帶來好處？

我們無法透過A/B Testing的結果來決定是否要上線一個新功能、服務，但透過結果的學習和不斷的實驗，這些結果都應該被運用於未來的設計上。

小幅度的調整可以比較聚焦，大幅度的改變可以有較顯著的變化，但是其中的每一個項目，都是後續優化需要獨立評估的項目

後續的章節都會基於下圖的架構說明，可能每一個步驟都會有其次步驟，但是整體的架構是遵循著這個順序。

首先，定義你想要達成的目標，這通常會是跟商業模式有關

第二步，決定是想要解決什麼問題或是找到有機會發展的方向

第三步，建立一個假設，你認為的關聯性

第四步，設計測試的流程

最後，獲得這個實驗的結果，並且能夠讓你有『下一步』決策

值得注意的是，如果想要一次解決或是觀察過多的問題，可能會因此產生bias，也需要有更多的時間和資源投入，甚至需要將想要解決得問題排序。

如果能夠善用數據來設計整個流程，在實驗過程中，有些假設和因子，就會逐漸被排除，讓整個實驗更聚焦。我們不會只從一個實驗就知道客戶想要什麼，這是一個需要持續調整與學習的過程

實務上的實驗分成三大階段，書中的4~6章節會獨立說每一個階段：

Definition ：what it is you want to learn? 從實驗中想要獲得什麼？一開始的定義清楚，才能讓後續的執行與分析具有效率

Execution：第五章會講到如何架構、設計出一個能讓你獲得最多學習的實驗。怎麼建構出一個能反映你的假設的實驗？怎麼選擇test cell，以及最終要提供給客戶的東西？

Analysis：第六章則是最後的分析，當使用a/b test將你的想法傳達給客戶時，你應該要思考哪些？當你獲得結果後，如何決定下一步？

喜歡文章就按下「拍手」，給我多點鼓勵的話就多按幾下的拍手。