Photo by Alexa Mazzarello on Unsplash

如何做好A/B Testing? — Always Be Testing

Hsiu Chi Chang
Sep 8, 2018 · 16 min read

在6/29的時候,我在Agile Summit上分享了我們公司在A/B Testing的一個實戰經驗。演講後,得到許多朋友迴響,尤其是最近越來越多朋友在電商或是線上服務,發現數位廣告的轉換率越來越糟。大家都在尋找新的方法,希望可以讓潛在的用戶了解自家產品的好處,而不是片面的撒大把銀子打廣告。

A/B Testing,除了單純改改網站的按鈕顏色,或是文案及照片,更重要的是在實驗開始前,先了解自身公司的價值主張。這…聽起來距離公司行銷面有點遙遠?沒關係,這篇文章分享近期我收集到的課程及案例,把這些課程內容與自身的經驗做結合,分享給大家為什麼要進行A/B Testing?以及要怎麼做A/B Testing?

數位廣告轉換現狀

開始介紹A/B Testing之前,我們先來看看數位通路導流的問題在哪裡?參考互聯網女王2018的趨勢報告,裡面提及,過去幾年廠商可以盡情地投放廣告,而不需要思考太多其他策略面的方法,原因是過去幾年的流量紅利包括了智慧型手機出貨量的增長,以及全球上網人數的普及。但是,如下圖所示,智慧型手機在2016~2017年的增長幾乎趨近於0%。代表會買智慧型手機的人都已經買了。比較明顯的例子,是在台北搭捷運的時候,每個人手上都已經有一隻智慧型手機(除非你想要一邊追劇,一邊打手遊,這樣可能需要兩隻。)

https://www.digitaling.com/articles/46558.html

在下面這張全球互聯網用戶的圖表下,我們也可以看到用戶增長的比率也是漸漸下降,這代表什麼?代表會上網的人也大部分都在線上了

https://www.digitaling.com/articles/46558.html

會買智慧型手機的人都買了,會上網的人也都在線上了,那這跟數位廣告導流轉換的關係是?

想一下,每個人每天手機上網時間的情境:可能是通勤,或是下班後無聊的時間。但每個人一天擁有的時間是固定的,不會因為多買一支手機就增加了時間,也就是說數位廣告的業主其實是在競價每個人的「時間」。

就我自己的觀察,在每個行業,新創小公司因為資金的關係,一開始不太有機會砸錢在電視廣告。原因是電視廣告的費用至少都是10萬起跳,還不一定保證效果!另一方面,數位廣告 — 像Facebook或是Google Adwords,皆能直接安插追蹤碼在每一個消費者行為的路徑,可以很明確地知道,到底是哪一篇文章,或是哪一則廣告帶來了收益,這也造就了一波新型態電商崛起的優勢。

只是現在,連傳統的大公司也開始知道數位廣告的好處,當他們也一起跳進來搶食上網使用者注意力的時候,數位廣告的價格理所當然地就開始上揚。最明顯的例子就是今年跟幾位在電商工作的朋友說到,每次投放的CPC或是CPA價格是去年的翻倍,可是觸及率或是轉換率卻遠遠沒有以前的好。

從下圖,我們可以發現,過去幾年台灣的數位廣告量幾乎都有20%的成長,這也印證了有越來越多的廠商跳進來買數位廣告的趨勢。

http://www.dma.org.tw/newsPost/275

為何要進行A/B Testing?

當公司規模小的時候,產品的走向要往哪個方向走,其實很容易,「老闆說了算」(Hippo,Highest paid person’s opinion),主要就是老闆用他先前的經驗,讓目前的商業模式可以有正向的營業收入。

開始有了團隊之後,會有產品經理、設計師、工程師以及部門主管。另外,專案數量變多了,老闆不一定可以每件事情都顧到,此時每個人都有意見,聽起來又都很有道理,那該怎麼做決定?

A/B Testing,其實是一個幫助大家做決定的方法。先從一個比較巨觀的情境開始,幫助大家了解A/B Testing。在Forbes這篇文章中,舉了一個花店的例子。會影響到使用者購買產品意願的可能,包括:

  • 產品的品質(Quality of the product)
  • 產品能否準時送達(Reliability and timeliness of delivery)
  • 運費(Shipping costs)
  • 「花束」本身的價錢(Bouquet pricing)

想像一下,你是這間花店的老闆,想要進行線上買賣,透過網頁讓你的消費者可以進行購買,你會怎麼進行假設?你會怎樣呈現你的網頁,直到你可以達到上面4個項目的為止?

  • 農場直送鮮花,品質看得見 — “Beautiful bouquets fresh from the farm”
    很直覺地聯想到,你可以安排農場採收的畫面,或是送貨的畫面,盡量把「直送」這個觀念傳達給使用者。
  • 保證在情人節當天可以送達 — “Guaranteed Valentine’s Day delivery”
    為了確保情人節當天可以送達,一種測試的方法,是一位女生在公司上班的時候,有一束花放在辦公桌旁邊,又或是單純以月曆和時鐘,呈現時間的感受。
  • 非常低的運費 — “Low, flat-fee shipping rates”
    可以直接標示出運費的價格、又或是比較眾多貨運公司的運費。
  • 價格合理 — “Flower arrangements starting from $35”
    比較與一般市面上花店的價格,可以用表格,或是直接秀出價格

假設上面是一個Landing page,在開始建造網頁之前,花店的老闆已經有4個價值主張(value proposition)。實際上,要完成這些價值主張,有很多種不同的方法,我們不太可能一次就把4種不同的價值主張完全驗證完。比較可行的方法,就是先做出第一個版本,先確認好線上送花的這個行業是可行的。
在這個先決條件成立的前提之下,我們就可以開始進一步,針對每個不同的價值主張進行A/B Testing。

在進行A/B Testing時,還要先有一個心理建設,這些實驗及改變,除了能讓你在短時間看到某個按鈕好像改變後得到的成效之外,它也可以為你下一個檔期,需要曝光的行銷案,提供更明確的執行方向。

舉個例子來說:在上面第二個價值主張,是保證可以在情人節的時候把你的花送到對方手中。假設這個是使用者在乎的痛點,那麼「準時送達率」就會變成一個非常重要的KPI(Key Performance Indicator)。可以觀察在一次的節日實驗中,收到多少通抱怨的客服電話,又或是當有人使用這個服務後,下次在節日的時候,再次使用這個服務的回購率是多少?上述兩點,都比單純在一次的A/B Testing得到較好的結果,對公司來得更具建設性。

進行A/B Testing的整體流程思考

管道分析,是對產品初步的了解,這個部分可以從安裝追蹤碼開始。當然放置追蹤碼之前,你也許可以假裝自己是一個第一次接觸到自家品牌產品的使用者。如下圖所示,有可能你的臉書被廣告打到,或是你因為某種需求查詢而來的關鍵字,或是不小心在看一些部落客的分享文中。

接著,你有可能會去點擊首頁的說明,或是CTA(Call To Action)按鈕。當開始對某項服務感到興趣的時候,你可能會想要多了解一下產品的全貌。如果該服務有Blog的話,可能會去點擊,看看有沒有其他人使用這個產品的回饋,又或是如果有FB機器人的服務,點擊之後,與機器人互動看看,看能否找到自己需要的答案。

有些潛在客戶,可能做了以上的動作之後,都還是沒有購買。他可能會先註冊試用免費版的服務。過了一陣子,收到了公司發給他的優惠訊息,最後才變成客戶。這個過程短則1~2天,長則好幾個月。如何追蹤到這感興趣的潛在客群?A/B Testing就適合在這個時候使用。

客戶使用服務之管道分析

管道分析可以把它當做一個俯瞰的角度,了解潛在客戶從哪裡來?會前往哪些途徑?但如果單純只知道潛在客戶會往哪裡走,是無法和商業價值有所連結,所以要進一步做漏斗分析。所謂漏斗分析就如下圖所示:

在下面這個例子之中,是一個電商平台的例子,從圖中可以看到放入購物車的潛在客戶只有46%的人有前進到下一步驟,另外54%的人都離開了。開始填寫資料欄位之後,又有44%的人會離開,所以到最後購買成功,只剩下全部的26.26%。上面舉這個例子,可能就只是在你商城中其中一個管道,接下來要做的,就是針對每一個流失率高的漏斗,開始進行A/B Testing的優化。

http://www.analytics-ninja.com/wordpress/wp-content/uploads/2009/08/conversion-funnel.jpg

A/B Testing Crash Course for Product Managers這門課中,建議我們先做用戶的分群,並且舉了Udemy想要關注的族群,包括:第一次進到Udemy的用戶與回頭客的比較,使用桌機進到網站者與手機版的用戶比較…將上面這些問題與A/B Testing可以進行測試的項目做結合,展開不同的實驗可能:

最後他們把重心放在,第一次進到Udemy網站的潛在客戶卻沒有註冊成為會員的這群人身上。

建立呼應問題的假設

既然已經決定想要測試的對象了,接下來我們就要開始學著問問題。「建立假設」其實就是一種問問題的方式。什麼是假設?簡單來說,假設是對於一個現象的出現有一個合理的解釋,但不知是否真的能完整去解釋這個現象。

比如說:牛頓被一個蘋果從蘋果樹上掉下來砸到,所以他假設有一股力量,可以將蘋果從樹上拉下來,接著他去做了很多實驗,發現不只是蘋果,其他的東西也都會掉下來,觀察了這些現象之後,他嘗試用數學的方式,建立一個模型,這也就是後來「萬有引力」的由來。

再舉一個例子,最近我在找日本東京旅遊的資訊,找了Airbnb的東京住宿地點後,再去開instagram,馬上就有Airbnb的廣告等著我。可是當我已經用booking.com訂好飯店之後,我的FB上還是有Airbnb的廣告對我投放。原因就是廣告商抓到我想要去東京旅遊的意圖(在Airbnb網站上搜尋東京住宿地),所以它們假設我想要在Airbnb上訂房,但實際上我已經完成我在東京住宿的預訂。

廣告商假設,「你最近常在看東京旅遊的資訊,你會對Airbnb的廣告保持興趣」,但實際上我已經完成訂房了,像這樣的假設對我來說就是錯誤的,Airbnb的廣告費用對我沒達到功效。

這邊提供一個假設的範例給大家參考:

當然,想要增加到達頁面的轉換率,可能不只有一個假設。很多其他的假設都可能讓頁面的轉換率提昇。下一步,我們需要來排序,到底哪一個假設,比較值得進行實作驗證。至於排序的方式,可以參考下圖,針對每一個假設,給其特定分數,分別以「商業影響程度」,及「技術執行面執行容易」的程度思考執行面的難易度。排序完成之後,落在圖中右上角的項目將會是最需要排進實驗時程的項目。

評估是否執行假設四象限圖

根據先前假設,設計實驗

開始實驗之前,我們需要先知道幾個不同的實驗參數,分別是

基準轉換率(Baseline conversion rate)

這是原本實驗前,目前網站的轉換率。

最小可辨識效果(Minimum Detectable Effect (MDE))

在實驗前,我們會先設定好多大的差異(Effect size)才算有意義,我們要知道實驗組和控制組有多少差異才叫做有效?

統計顯著性(Statistical significance)

統計顯著性是用來衡量實驗假說的效力,我們會需要設定實驗的顯著性,來判斷實驗結果是否有代表意義。(一般來說實驗假說的顯著性設在95%)

樣本數(Sample size)

樣本數大的實驗所獲得的結果,會相對較有說服力。

看完上面的定義,不知道怎麼去計算?還好你可以用下面這個連結,它會幫你計算,在控制實驗變因之下,需要多少的Sample 才夠。

我在上面這個網站的例子,設定一個baseline conversion rate=20%的例子,那如果我們的MDE是5%,且Statistical significance是95%的話,那麼我們需要25,000的樣本數,才能得到有說服力的結果。通常A/B Testing都會做一段時間,如果你的網站平均每日流量大約在10,000人左右,將25,000/10,000,你需要2.5天,才能得到足夠的樣本數。

分析數據,找出是否能驗證假設的解釋

等到數據都蒐集的差不多了,就要來看看數據到底能不能驗證我們的假設,是否正確。如下圖所示,這邊我們來看一個A/B Testing完成之後,看起來很有效果,但試過一段時間之後,控制組與實驗組成效漸漸接近的狀態。在 A/B Testing and Experimentation for Beginners這門課中,老師告訴我們不要太急著下定論,可以注意下面兩個要點:

  1. 變化1(Variation 1)及變化2(Variation 2)與原始(Original)在2009–12–14到2009-12–21這一週看起來是有顯著的差別,但大約在2010–01–01之後,這三條線段幾乎都重疊在一起,如果太早把所有的網站流量都導到變化的設計,可能最終的結果不一定會理想。
  2. 有可能使用者對新的變化有反應,但部分的使用者在2010–01之後,已經熟悉了變化,他們之後再次到訪網站的時候,就不再進行購物的行為,導致轉換率趨於平緩。關於這點,我認為應該是這些變化都不是改善轉換率的關鍵點,可能要重新回到第二步進行A/B Testing的整體流程思考,回去審視,是否有哪些數據被遺漏掉,或是沒有發現到使用者的關鍵行為。
From A/B Testing and Experimentation for Beginners

當然如果實驗出來的結果,有很顯著的差異,那麼盡早上線,將會是一個最好的選擇。

下次會更好

通常一次的A/B Testing不一定可以馬上看出成效。做完一次A/B Testing可能會有以下幾種結果:

正向的結果:假設正確,可以在數據上找到證明假設的證據。但老實說,這也不要高興得太早,原因是我看過很多文獻,很多改變都是在初期2~4週是有效的,但是當時間一拉長之後,原本新版改善的成效,會漸漸趨於頻緩。

看不太出來有什麼差:不要氣餒,這並不表示這次的實驗沒有用。可以看看漏斗中是否有些明顯的差距。如果還是沒有,表示這個假設並沒有完全找到值得測試的項目。

反面的結果:你的假設與實驗的數據相左,新的嘗試比原本的設計結果還要來得糟,確認一下實驗的樣本點是足夠的。如果確認之後,還是沒找到可疑之處。那就大方承認這次的結果並不符合預期。實際上,實驗本來就沒有一直成功的道理。重點是能夠在這次的實驗中,學習到什麼,才是最重要的!

除了A/B Testing這樣量化的分析之外,可能也要搭配一些問卷式的質化分析,詢問使用者「為何沒有做完成網站想要他們做的行為?」增加A/B Testing的完整性。

結論

整理完Udemy的兩堂課程,以及一些國外的文獻,我們可以發現,近期國外的趨勢,除了A/B Testing之外,更在乎的是進行一個完整的UX策略思考。它們會把使用者使用這個服務的完整過程都納入考量。A/B Testing已經整合在最佳化轉化率(Conversion Rate Optimization)之中,要能從巨觀上結合商業思維,接著從細節中找到使用者真正在乎的痛點,如此,才能進一步地提升服務的品質。畢竟,A/B Testing的另外一層意思就是Always Be Testing啊!

參考資料

哈囉!我是Jasper,喜歡閱讀,鑽研互聯網產品設計,悠遊於英文學習行為大數據,歡迎追蹤,任何關於學習的想法都可以提出來一起切磋討論,想看更多內容也可以到下面這些地方逛逛!Facebook https://www.facebook.com/JasperChang.Startup
攻其不背優惠序號 https://www.hopenglish.com/course/products/FXFHW
聯絡我請至 threeche@gmail.com

達人演講
你對A/B Testing的實際操作還有問題嗎?想要知道更多A/B Testing的操作細節?歡迎你10/5週五來參加由UserXper 悠識數位主辦的「A/B Testing 數據分析與決策實務研討」,聽聽我與其他三位達人的分享!
A/B testing 數據分析與決策 實務研討

如果你覺得這篇文章不錯,請給我1~10個掌聲,
如果你覺得這篇文章值得跟你的朋友分享,請不吝於幫我轉發分享,
如果你想繼續看到我的文章,歡迎你按下follow來追蹤我的最新文章。

Hsiu Chi Chang

Written by

目前擔任希平方技術長,參與專案有:App開發,產品UX設計,聊天機器人開發。帶領團隊運用機器學習及大數據分析,藉由學生學習行為等大數據,翻轉台灣英文教育。

Hsiu Chi Chang

Written by

目前擔任希平方技術長,參與專案有:App開發,產品UX設計,聊天機器人開發。帶領團隊運用機器學習及大數據分析,藉由學生學習行為等大數據,翻轉台灣英文教育。

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store