Photo by Alexa Mazzarello on Unsplash

如何做好A/B Testing? — Always Be Testing

在6/29的時候,我在Agile Summit上分享了我們公司在A/B Testing的一個實戰經驗。演講後,得到許多朋友迴響,尤其是最近越來越多朋友在電商或是線上服務,發現數位廣告的轉換率越來越糟。大家都在尋找新的方法,希望可以讓潛在的用戶了解自家產品的好處,而不是片面的撒大把銀子打廣告。

A/B Testing,除了單純改改網站的按鈕顏色,或是文案及照片,更重要的是在實驗開始前,先了解自身公司的價值主張。這…聽起來距離公司行銷面有點遙遠?沒關係,這篇文章分享近期我收集到的課程及案例,把這些課程內容與自身的經驗做結合,分享給大家為什麼要進行A/B Testing?以及要怎麼做A/B Testing?

數位廣告轉換現狀

開始介紹A/B Testing之前,我們先來看看數位通路導流的問題在哪裡?參考互聯網女王2018的趨勢報告,裡面提及,過去幾年廠商可以盡情地投放廣告,而不需要思考太多其他策略面的方法,原因是過去幾年的流量紅利包括了智慧型手機出貨量的增長,以及全球上網人數的普及。但是,如下圖所示,智慧型手機在2016~2017年的增長幾乎趨近於0%。代表會買智慧型手機的人都已經買了。比較明顯的例子,是在台北搭捷運的時候,每個人手上都已經有一隻智慧型手機(除非你想要一邊追劇,一邊打手遊,這樣可能需要兩隻。)

https://www.digitaling.com/articles/46558.html

在下面這張全球互聯網用戶的圖表下,我們也可以看到用戶增長的比率也是漸漸下降,這代表什麼?代表會上網的人也大部分都在線上了

https://www.digitaling.com/articles/46558.html

會買智慧型手機的人都買了,會上網的人也都在線上了,那這跟數位廣告導流轉換的關係是?

想一下,每個人每天手機上網時間的情境:可能是通勤,或是下班後無聊的時間。但每個人一天擁有的時間是固定的,不會因為多買一支手機就增加了時間,也就是說數位廣告的業主其實是在競價每個人的「時間」。

就我自己的觀察,在每個行業,新創小公司因為資金的關係,一開始不太有機會砸錢在電視廣告。原因是電視廣告的費用至少都是10萬起跳,還不一定保證效果!另一方面,數位廣告 — 像Facebook或是Google Adwords,皆能直接安插追蹤碼在每一個消費者行為的路徑,可以很明確地知道,到底是哪一篇文章,或是哪一則廣告帶來了收益,這也造就了一波新型態電商崛起的優勢。

只是現在,連傳統的大公司也開始知道數位廣告的好處,當他們也一起跳進來搶食上網使用者注意力的時候,數位廣告的價格理所當然地就開始上揚。最明顯的例子就是今年跟幾位在電商工作的朋友說到,每次投放的CPC或是CPA價格是去年的翻倍,可是觸及率或是轉換率卻遠遠沒有以前的好。

從下圖,我們可以發現,過去幾年台灣的數位廣告量幾乎都有20%的成長,這也印證了有越來越多的廠商跳進來買數位廣告的趨勢。

http://www.dma.org.tw/newsPost/275

為何要進行A/B Testing?

當公司規模小的時候,產品的走向要往哪個方向走,其實很容易,「老闆說了算」(Hippo,Highest paid person’s opinion),主要就是老闆用他先前的經驗,讓目前的商業模式可以有正向的營業收入。

開始有了團隊之後,會有產品經理、設計師、工程師以及部門主管。另外,專案數量變多了,老闆不一定可以每件事情都顧到,此時每個人都有意見,聽起來又都很有道理,那該怎麼做決定?

A/B Testing,其實是一個幫助大家做決定的方法。先從一個比較巨觀的情境開始,幫助大家了解A/B Testing。在Forbes這篇文章中,舉了一個花店的例子。會影響到使用者購買產品意願的可能,包括:

  • 產品的品質(Quality of the product)
  • 產品能否準時送達(Reliability and timeliness of delivery)
  • 運費(Shipping costs)
  • 「花束」本身的價錢(Bouquet pricing)

想像一下,你是這間花店的老闆,想要進行線上買賣,透過網頁讓你的消費者可以進行購買,你會怎麼進行假設?你會怎樣呈現你的網頁,直到你可以達到上面4個項目的為止?

  • 農場直送鮮花,品質看得見 — “Beautiful bouquets fresh from the farm” 
    很直覺地聯想到,你可以安排農場採收的畫面,或是送貨的畫面,盡量把「直送」這個觀念傳達給使用者。
  • 保證在情人節當天可以送達 — “Guaranteed Valentine’s Day delivery”
    為了確保情人節當天可以送達,一種測試的方法,是一位女生在公司上班的時候,有一束花放在辦公桌旁邊,又或是單純以月曆和時鐘,呈現時間的感受。
  • 非常低的運費 — “Low, flat-fee shipping rates”
    可以直接標示出運費的價格、又或是比較眾多貨運公司的運費。
  • 價格合理 — “Flower arrangements starting from $35”
    比較與一般市面上花店的價格,可以用表格,或是直接秀出價格

假設上面是一個Landing page,在開始建造網頁之前,花店的老闆已經有4個價值主張(value proposition)。實際上,要完成這些價值主張,有很多種不同的方法,我們不太可能一次就把4種不同的價值主張完全驗證完。比較可行的方法,就是先做出第一個版本,先確認好線上送花的這個行業是可行的。
在這個先決條件成立的前提之下,我們就可以開始進一步,針對每個不同的價值主張進行A/B Testing。

在進行A/B Testing時,還要先有一個心理建設,這些實驗及改變,除了能讓你在短時間看到某個按鈕好像改變後得到的成效之外,它也可以為你下一個檔期,需要曝光的行銷案,提供更明確的執行方向。

舉個例子來說:在上面第二個價值主張,是保證可以在情人節的時候把你的花送到對方手中。假設這個是使用者在乎的痛點,那麼「準時送達率」就會變成一個非常重要的KPI(Key Performance Indicator)。可以觀察在一次的節日實驗中,收到多少通抱怨的客服電話,又或是當有人使用這個服務後,下次在節日的時候,再次使用這個服務的回購率是多少?上述兩點,都比單純在一次的A/B Testing得到較好的結果,對公司來得更具建設性。

進行A/B Testing的整體流程思考

管道分析,是對產品初步的了解,這個部分可以從安裝追蹤碼開始。當然放置追蹤碼之前,你也許可以假裝自己是一個第一次接觸到自家品牌產品的使用者。如下圖所示,有可能你的臉書被廣告打到,或是你因為某種需求查詢而來的關鍵字,或是不小心在看一些部落客的分享文中。

接著,你有可能會去點擊首頁的說明,或是CTA(Call To Action)按鈕。當開始對某項服務感到興趣的時候,你可能會想要多了解一下產品的全貌。如果該服務有Blog的話,可能會去點擊,看看有沒有其他人使用這個產品的回饋,又或是如果有FB機器人的服務,點擊之後,與機器人互動看看,看能否找到自己需要的答案。

有些潛在客戶,可能做了以上的動作之後,都還是沒有購買。他可能會先註冊試用免費版的服務。過了一陣子,收到了公司發給他的優惠訊息,最後才變成客戶。這個過程短則1~2天,長則好幾個月。如何追蹤到這感興趣的潛在客群?A/B Testing就適合在這個時候使用。

客戶使用服務之管道分析

管道分析可以把它當做一個俯瞰的角度,了解潛在客戶從哪裡來?會前往哪些途徑?但如果單純只知道潛在客戶會往哪裡走,是無法和商業價值有所連結,所以要進一步做漏斗分析。所謂漏斗分析就如下圖所示:

在下面這個例子之中,是一個電商平台的例子,從圖中可以看到放入購物車的潛在客戶只有46%的人有前進到下一步驟,另外54%的人都離開了。開始填寫資料欄位之後,又有44%的人會離開,所以到最後購買成功,只剩下全部的26.26%。上面舉這個例子,可能就只是在你商城中其中一個管道,接下來要做的,就是針對每一個流失率高的漏斗,開始進行A/B Testing的優化。

http://www.analytics-ninja.com/wordpress/wp-content/uploads/2009/08/conversion-funnel.jpg

A/B Testing Crash Course for Product Managers這門課中,建議我們先做用戶的分群,並且舉了Udemy想要關注的族群,包括:第一次進到Udemy的用戶與回頭客的比較,使用桌機進到網站者與手機版的用戶比較…將上面這些問題與A/B Testing可以進行測試的項目做結合,展開不同的實驗可能:

最後他們把重心放在,第一次進到Udemy網站的潛在客戶卻沒有註冊成為會員的這群人身上。

建立呼應問題的假設

既然已經決定想要測試的對象了,接下來我們就要開始學著問問題。「建立假設」其實就是一種問問題的方式。什麼是假設?簡單來說,假設是對於一個現象的出現有一個合理的解釋,但不知是否真的能完整去解釋這個現象。

比如說:牛頓被一個蘋果從蘋果樹上掉下來砸到,所以他假設有一股力量,可以將蘋果從樹上拉下來,接著他去做了很多實驗,發現不只是蘋果,其他的東西也都會掉下來,觀察了這些現象之後,他嘗試用數學的方式,建立一個模型,這也就是後來「萬有引力」的由來。

再舉一個例子,最近我在找日本東京旅遊的資訊,找了Airbnb的東京住宿地點後,再去開instagram,馬上就有Airbnb的廣告等著我。可是當我已經用booking.com訂好飯店之後,我的FB上還是有Airbnb的廣告對我投放。原因就是廣告商抓到我想要去東京旅遊的意圖(在Airbnb網站上搜尋東京住宿地),所以它們假設我想要在Airbnb上訂房,但實際上我已經完成我在東京住宿的預訂。

廣告商假設,「你最近常在看東京旅遊的資訊,你會對Airbnb的廣告保持興趣」,但實際上我已經完成訂房了,像這樣的假設對我來說就是錯誤的,Airbnb的廣告費用對我沒達到功效。

這邊提供一個假設的範例給大家參考:

我相信_________可以得到________的業績改善,因為這個方法_______
我相信「將使用者顧客的logo移到比較接近帳單的部分」可以「增加5%」的業績改善,因為這個方法「可以增加使用者在消費的信心」。

當然,想要增加到達頁面的轉換率,可能不只有一個假設。很多其他的假設都可能讓頁面的轉換率提昇。下一步,我們需要來排序,到底哪一個假設,比較值得進行實作驗證。至於排序的方式,可以參考下圖,針對每一個假設,給其特定分數,分別以「商業影響程度」,及「技術執行面執行容易」的程度思考執行面的難易度。排序完成之後,落在圖中右上角的項目將會是最需要排進實驗時程的項目。

評估是否執行假設四象限圖

根據先前假設,設計實驗

開始實驗之前,我們需要先知道幾個不同的實驗參數,分別是

基準轉換率(Baseline conversion rate)

這是原本實驗前,目前網站的轉換率。

最小可辨識效果(Minimum Detectable Effect (MDE))

在實驗前,我們會先設定好多大的差異(Effect size)才算有意義,我們要知道實驗組和控制組有多少差異才叫做有效?

統計顯著性(Statistical significance)

統計顯著性是用來衡量實驗假說的效力,我們會需要設定實驗的顯著性,來判斷實驗結果是否有代表意義。(一般來說實驗假說的顯著性設在95%)

樣本數(Sample size)

樣本數大的實驗所獲得的結果,會相對較有說服力。

看完上面的定義,不知道怎麼去計算?還好你可以用下面這個連結,它會幫你計算,在控制實驗變因之下,需要多少的Sample 才夠。

我在上面這個網站的例子,設定一個baseline conversion rate=20%的例子,那如果我們的MDE是5%,且Statistical significance是95%的話,那麼我們需要25,000的樣本數,才能得到有說服力的結果。通常A/B Testing都會做一段時間,如果你的網站平均每日流量大約在10,000人左右,將25,000/10,000,你需要2.5天,才能得到足夠的樣本數。

分析數據,找出是否能驗證假設的解釋

等到數據都蒐集的差不多了,就要來看看數據到底能不能驗證我們的假設,是否正確。如下圖所示,這邊我們來看一個A/B Testing完成之後,看起來很有效果,但試過一段時間之後,控制組與實驗組成效漸漸接近的狀態。在 A/B Testing and Experimentation for Beginners這門課中,老師告訴我們不要太急著下定論,可以注意下面兩個要點:

  1. 變化1(Variation 1)及變化2(Variation 2)與原始(Original)在2009–12–14到2009-12–21這一週看起來是有顯著的差別,但大約在2010–01–01之後,這三條線段幾乎都重疊在一起,如果太早把所有的網站流量都導到變化的設計,可能最終的結果不一定會理想。
  2. 有可能使用者對新的變化有反應,但部分的使用者在2010–01之後,已經熟悉了變化,他們之後再次到訪網站的時候,就不再進行購物的行為,導致轉換率趨於平緩。關於這點,我認為應該是這些變化都不是改善轉換率的關鍵點,可能要重新回到第二步進行A/B Testing的整體流程思考,回去審視,是否有哪些數據被遺漏掉,或是沒有發現到使用者的關鍵行為。
From A/B Testing and Experimentation for Beginners

當然如果實驗出來的結果,有很顯著的差異,那麼盡早上線,將會是一個最好的選擇。

下次會更好

通常一次的A/B Testing不一定可以馬上看出成效。做完一次A/B Testing可能會有以下幾種結果:

正向的結果:假設正確,可以在數據上找到證明假設的證據。但老實說,這也不要高興得太早,原因是我看過很多文獻,很多改變都是在初期2~4週是有效的,但是當時間一拉長之後,原本新版改善的成效,會漸漸趨於頻緩。

看不太出來有什麼差:不要氣餒,這並不表示這次的實驗沒有用。可以看看漏斗中是否有些明顯的差距。如果還是沒有,表示這個假設並沒有完全找到值得測試的項目。

反面的結果:你的假設與實驗的數據相左,新的嘗試比原本的設計結果還要來得糟,確認一下實驗的樣本點是足夠的。如果確認之後,還是沒找到可疑之處。那就大方承認這次的結果並不符合預期。實際上,實驗本來就沒有一直成功的道理。重點是能夠在這次的實驗中,學習到什麼,才是最重要的!

除了A/B Testing這樣量化的分析之外,可能也要搭配一些問卷式的質化分析,詢問使用者「為何沒有做完成網站想要他們做的行為?」增加A/B Testing的完整性。

結論

整理完Udemy的兩堂課程,以及一些國外的文獻,我們可以發現,近期國外的趨勢,除了A/B Testing之外,更在乎的是進行一個完整的UX策略思考。它們會把使用者使用這個服務的完整過程都納入考量。A/B Testing已經整合在最佳化轉化率(Conversion Rate Optimization)之中,要能從巨觀上結合商業思維,接著從細節中找到使用者真正在乎的痛點,如此,才能進一步地提升服務的品質。畢竟,A/B Testing的另外一層意思就是Always Be Testing啊!

參考資料

哈囉!我是Jasper,喜歡閱讀,鑽研互聯網產品設計,悠遊於英文學習行為大數據,歡迎追蹤,任何關於學習的想法都可以提出來一起切磋討論,想看更多內容也可以到下面這些地方逛逛!
Facebook https://www.facebook.com/JasperChang.Startup
攻其不背優惠序號 https://www.hopenglish.com/course/products/FXFHW
聯絡我請至 threeche@gmail.com

達人演講
你對A/B Testing的實際操作還有問題嗎?想要知道更多A/B Testing的操作細節?歡迎你10/5週五來參加由UserXper 悠識數位主辦的「A/B Testing 數據分析與決策實務研討」,聽聽我與其他三位達人的分享!
 →A/B testing 數據分析與決策 實務研討

如果你覺得這篇文章不錯,請給我1~10個掌聲,
如果你覺得這篇文章值得跟你的朋友分享,請不吝於幫我轉發分享,
如果你想繼續看到我的文章,歡迎你按下follow來追蹤我的最新文章。