[書]Designing with Data(上)

Maya Lee
生活那點事
Published in
9 min readSep 16, 2018

Improving the user experience with A/B testing

不論是產品規劃、行銷、系統開發或是設計人員,在現在這個時代,都需要將自己的工作結合『數據』。不僅是事後才從數據看結果,而是一開始在規劃時,就要把數據列入思考範圍內。本書教大家如何建構數據實驗,透過A/B Testing,讓最終的產出,能夠有其貢獻,並且持續不斷地提供下一次優化的討論。

架構

Ch1~3 字詞的定義、整個數據實驗的觀念與架構

Ch4~6 設計整個實驗,從定義問題、設計實驗到分析的實作討論

Ch7~8 結論

因此在此篇文章(涵蓋範圍Ch1~3)中,僅會先帶到一些名詞與定義,建立後續內容的共識。因為我也不是這方面的專家,對於統計更是模模糊糊的了解,書又是原文,所以如果發現有錯誤地方,或是有值得討論的空間,再請留言告訴我。

三種數據的認知

依據不同的情況,對數據得認知與使用時刻,可以先分成三種:

Data Driven:如果已經非常清楚問題所在,那麼數據的結果,可以直接作為決定的判斷點。

Data Informed:數據僅是其中一個做決定的判斷點,仍需要更多的研究輔佐。

Data Aware:認知有很多種的數據搜集方式可以回答不同種類的問題

兩種數據的分類

在蒐集數據時,可將數據分類為兩種:

  1. longitudinal:長時間透過觀察同一個使用者的改變,這類的數據需要花較長的時間
  2. snapshot:當下即可有產出,同時間觀察很多人對於一個產品的反應

另外,同時也要思考要在哪一種環境下蒐集數據,如果是在比較獨立的空間(isolation),可以排除掉其他干擾的因素,單就設計本身來討論。反之,在一個開放式的空間,或是比較貼近現實的環境(contextual),則可以看出產品或是設計在真實環境的運作。

要怎麼蒐集數據?先確認問題是什麼

蒐集數據的方式有很多,首先,必須先確認問題是屬於哪一種問題,才可以評估用量化或是質化的方式,來找到答案。例如,要透過觀察還是訪問使用者,取決於想知道決策行為還是決策原因?每一種方式都有其可能產生的偏見,單純的觀察,可能無法獲得使用者操作的原因,但若是透過訪問的方式,有可能使用者會提供我們想要聽的『正確答案』,這種行為稱之為social desirability response or acquiescence bias。

最後,需要思考採用moderate data or unmoderate data。Moderate data 需要有更充裕的人力來提供更近一步的說明與解釋,讓填答者可以在完整的認知下回覆。相反的,unmoderate data因為沒有人可以幫忙說明,則是需要有專家精心設計好題目,避免任何可能造成誤解的地方。

那麼數據的數量需要多少才夠?一般來說,有些產品的問題不需要很多的使用者反應才能確定問題,5個使用者其實就能讓我們看出85%的產品使用問題。所以再次,回到

想知道的問題是什麼?問題明確,才能找到合適的數據蒐集方式,並且產生能夠回應問題的答案。

5個使用者就能夠反應出產品的使用問題

這本書從書名就可以知道,主要是要探討如何透過A/B Testing 數據實驗優化或是改造產品、服務。基於“相關不蘊涵因果(correlation does not imply causation)”的精神,特別強調「實驗」,逐步且不斷地演進。然而,A/B Testing有其限制性,例如你無法得知使用者最終決策的原因,僅能看到結果,所以在評估時,應該要綜合性的考量,才能看得到全貌。

選擇樣本

在實驗前,樣本(test cell)的選擇也是相當重要,選取樣本的切角,需要思考,這些條件是否會影響使用者的行為?而樣本的切角,亦會影響到後續使用者溝通內容與期待。因此每次在做A/B Test時,都需要重新思考下列三個問題:

從哪一種切角切入?

書內提到了Cohort與Segment兩種切角:

Cohort:有一群擁有相同經驗的使用者,不論任何原因,有使用過產品的人或是同樣在2015年畢業的學生。反應在我自己的產品上,大概就是「在本行有買過金融商品的客戶」或是「已經有申請過網路銀行的數位客戶」。

Segment:從人口統計(demographic),使用者基本條件,例如居住地、年齡、男女、行為等選擇樣本。

如果採用基本條件去做切入,那麼將能夠獲得哪些客戶資料?

例如個人資料、使用的設備裝置型號等。

最後,想要針對既有客戶還是新客戶?

既有的客戶因為已經對產品有所認知,所以測試新的功能、服務時,會有一段時間需要適應(learning effect),不難解釋,每次app改版後,總是會有既有客戶因為使用行為被改變,而產生排斥感,但是久了以後,對新功能、服務的想法,會跟新的客戶逐漸一致。所以新的功能上線時,需要有一段時間的觀察,才有辦法確定這項功能是否能夠符合當初我們設計的用意。或者也可以思考,現在使用者是我們未來想要的使用者嗎?如果不是,那麼哪些客戶的聲音才是我們需要著重的?

指標 Metrics

用來衡量 A/B testing的結果是否有效,主要的衡量指標都應該要建立在能夠使商業模式成功,因此設立衡量指標前,可以思考三個問題:

  • 所在的產業、型態是什麼?
  • 收益模式?
  • 目前的狀態是否成熟?

所有的指標也需要和創造好的使用者體驗一致,才能帶來長期正向的使用體驗。

差異要多大才算是差異?

定義「最小改善程度 (minimum detectable effect (MDE))」需要依據實際商業上的因子,例如透過這個差異能帶來多大的利潤增加。但有時候考量更長期的策略方向,即使短期沒有帶來利潤,也仍然會被執行。

如果想要增加整個實驗的說服力,則可以透過增加樣本數量來達成。

假設 Hypothesis

假設會決定你從這個實驗終將獲得的產物

當我們會想要做實驗時,總是心中有一個認為某兩個因子可能有相互的影響關係,例如改變了某個按鈕的顏色,可能會讓更多使用者想要點他。但我們也比需要知道,實驗只能夠“推翻”假設,而無法“證明”假設,如同在沒有找到黑天鵝前,我們也都無法證明所有的天鵝都是白色。

假設應該要是一段聲明,描述你相信在特定情況下,某些事會發生。通常會說成:

“If we do X, users ​will do Y because of Z which will impact metrics A.”

有了假設後,就能夠透過一個完整個測試規劃,來獲得你想驗證的東西。所有的實驗結果,都不能稱其為“失敗”,因為推翻了假設,也是一種學習,讓我們知道下一次的實驗方向應該要往哪邊調整

把每個人對於產品階段的標準拉齊

當大家在溝通產品的完成度時,時常會有落差。有的人覺得已經是完成的狀態,有的人認為這只是暫時的版本,這時候可以透過下列的架構,把大家的想法拉齊

先想一下目前問題的規模,以及你距離解決這個問題還有多遠?是在尋找一個解決方案,還是在想要創造一個新的功能?願意花多少資源、時間去改變?付出的成本是否能夠對評估指標帶來好處?

我們無法透過A/B Testing的結果來決定是否要上線一個新功能、服務,但透過結果的學習和不斷的實驗,這些結果都應該被運用於未來的設計上。

小幅度的調整可以比較聚焦,大幅度的改變可以有較顯著的變化,但是其中的每一個項目,都是後續優化需要獨立評估的項目

後續的章節都會基於下圖的架構說明,可能每一個步驟都會有其次步驟,但是整體的架構是遵循著這個順序。

首先,定義你想要達成的目標,這通常會是跟商業模式有關

第二步,決定是想要解決什麼問題或是找到有機會發展的方向

第三步,建立一個假設,你認為的關聯性

第四步,設計測試的流程

最後,獲得這個實驗的結果,並且能夠讓你有『下一步』決策

值得注意的是,如果想要一次解決或是觀察過多的問題,可能會因此產生bias,也需要有更多的時間和資源投入,甚至需要將想要解決得問題排序。

如果能夠善用數據來設計整個流程,在實驗過程中,有些假設和因子,就會逐漸被排除,讓整個實驗更聚焦。我們不會只從一個實驗就知道客戶想要什麼,這是一個需要持續調整與學習的過程

實務上的實驗分成三大階段,書中的4~6章節會獨立說每一個階段:

Definition :what it is you want to learn? 從實驗中想要獲得什麼?一開始的定義清楚,才能讓後續的執行與分析具有效率

第四章的範圍

Execution:第五章會講到如何架構、設計出一個能讓你獲得最多學習的實驗。怎麼建構出一個能反映你的假設的實驗?怎麼選擇test cell,以及最終要提供給客戶的東西?

第五章的範圍

Analysis:第六章則是最後的分析,當使用a/b test將你的想法傳達給客戶時,你應該要思考哪些?當你獲得結果後,如何決定下一步?

第六章的範圍
喜歡文章就按下「拍手」,給我多點鼓勵的話就多按幾下的拍手。

--

--