Source: Unsplash https://unsplash.com/photos/1K6IQsQbizI

A/B testing 實驗設計指標時,應考慮的三個面向!(含案例分享)

Nana Chiang
Jun 8, 2019 · 7 min read

A/B Testing,顧名思義就是一種將 A、B 甚至更多產品版本同時呈現給用戶的產品實驗方式,目的是要減少實驗變因,只比較兩版本之間的差異來驗證實驗假設。

A/B Testing 的實驗方法已經被很廣泛的應用在軟體開發與迭代的過程中,相信大家都不陌生,但又因為 A/B Testing 完全依賴量化資料來做分析與結論,選擇的分析指標好壞會直接影響實驗的成敗和決策品質。

我自己在過程中犯了不少錯,曾經選的太淺,無法看出產品如何影響結果(Outcome),更多時候是選的太深,就算產品改動有一定效果,但從我設的指標上根本看不出來。我越用越覺得 A/B Testing 是一門很深的學問(笑),所以想用這篇筆記一下我這兩年跑實驗加上跟我的 Data Analyst 討論之後的一些學習,希望對剛開始做 A/B Testing的產品經理們有幫助。

如果還不熟悉或還沒實作過 A/B Testing 的朋友,可以先參考 Lucas 大大的這篇詳盡解說:

Leading VS Lagging Metrics,有什麼不一樣?

在進入指標設計之前想先解釋一下 Leading & Lagging Metrics 這兩大指標分類的概念,應該會有助於理解其他指標的選擇。

Lagging Metric 是拿來衡量結果(Output)的指標,這種指標呈現的是最終被影響的成果,不容易被立馬影響,通常需要時間或多個變因的推動才會變化,像是用戶留存率或是交易數量。

Leading Metric 是有預測性的輸入(Input)指標,比起結果,這些指標較容易直接被產品改動影響,也因此我們會用這樣的指標來預測結果可能會怎麼變動。聽起來怎麼好像有點玄?以電商產品為例,一個訪客看了幾個商品、是否有使用搜尋功能等,都可以算是 Leading Metric,因為「看更多」「有搜尋」的人或許比較容易「完成交易」,而且只要用戶有做搜尋動作就可以被記錄與觀察,無需等到整個交易過程完成。

這兩種定義其實是相對的,沒有好壞也各有用處,Leading Metrics 可以最快告訴你你的產品改動是否真的產生影響,Lagging Metrics 可以告訴你 Leading Metrics 的變化是否有接連產生你預期的結果。

我該如何挑選 AB Testing 時使用的指標呢?

一個產品改動會帶來多面向的影響,也因此通常在設計實驗時我不會只放一個成功指標而已,而是觀察一組可能被影響的重要指標,分為以下三個主要面向:

1. 目標達成與否:成功指標(Success Metrics/Output Metrics)

成功指標必須要能證明目標有被達成、或假設被驗證為真,這個指標會決定實驗的成敗,所以必須通常會跟公司的目標或團隊的目標一致,偏向 Lagging Metric 但必須還是要在實驗(通常是一到兩週)期間能夠被觀察。

以上面的實驗為例,這裡我們預期的成果是用戶將會看更多商品並「更多人能夠完成交易」。 因此這裡的指標很直觀的是:活躍用戶中完成交易的人數。

但又因為二手平台性質關係,其實「交易」常常發生在線下不好追蹤,買賣家也需要一段時間溝通確認交易細節,實驗期間不容易觀察,所以交易數量這個指標對我們來說太 Lagging,於是我們退一步選擇「活躍用戶中有送出聊天訊息給賣家的買家」此一指標來平衡 Leading & Lagging。

成功指標是判定實驗成敗的關鍵,所以盡量選擇一個主要的就好,就算因為特殊情況有多個(例如有「失敗指標」的情況:某指標必須成長,但同時另一個指標要至少不是負成長)PM 自己也要很清楚若其中一個不如預期下一步該怎麼做,才不會看到結果才來掙扎。

2. 實驗假設是否為真:輸入指標(Input Metrics)

在我的敘述中大家應該可以發現,產品實驗背後充滿假設,也因此有了連動的因果關係:「假設減低產品卡片高度 ➡️ 用戶會看更多商品」「假設用戶看更多商品 ➡️ 能夠更容易轉換成購買者」

所以除了呈現結果的成功指標以外,也要一一觀察比較這些假設是否為真。這個步驟很簡單,只要一一把假設寫下,搭配相對應的指標即可。以上面的實驗為例可以看出主要假設是:減少產品卡片高度後,「用戶會看更多商品」, 所以能夠更容易轉換成購買者。所以我們選擇「平均一個用戶瀏覽的商品數量(Impression)」「每一個用戶瀏覽的頁面數量(Pages loaded)」和「平均一個用戶點擊的商品數量(Clicks & Views)」當作輸入指標。

有了輸入指標,實驗完成後我們就可以藉由觀察以上指標,來一一檢驗自己的假設哪裡對了、哪裡錯了來了解實驗成功或失敗背後的原因。

3. 產品改動的連帶風險:健康指標(Health Metrics)

幾乎每一項產品改動都跟隨著風險,也因此我們也需要健康指標來 monitor 整個產品的狀況,通常這個部分也是我會放最多指標的地方。這個部分就要靠產品經理對產品改動的了解、設計改動影響的了解以及其他團隊商業目標的了解來發想,列出所有可能影響到自己/別人的最壞情況然後一一寫下。以上面的例子來說,我們有一些主要風險想評估:

  1. 產品卡片變小張了,若改變了用戶瀏覽習慣,是否會影響廣告收入?(可以看瀏覽相關指標與收入指標)
  2. 為了把卡片變小,我們拿掉/隱藏一些非主要功能,用戶是否會找不到這些功能?(可以看一些功能用量的指標)
  3. 我們改動的產品卡片會在所有商品分類生效,但旋轉拍賣也有像是車子房子這樣的特殊垂直分類,是否有可能產生負面影響?(可以把主要成功指標切分用戶區隔,再做細部的分析)

實驗結束後我們可以觀察以上的健康指標,來評估產品改動帶來成功的同時是否傷害了其他指標的平衡,這裡的數據也常是我和其他團隊溝通協商的重點之一。


以上是一個簡單的例子和邏輯說明,希望這個框架和思路對大家有幫助!我自己覺得這樣的思考框架並不只是為了寫文件或定指標,更有價值的地方是它能幫助我釐清每一步的假設並評估風險,想過一遍之後實驗的脈絡會更清晰。

最後想強調一點:的確是有很多資料可以收集和分析,但為了在這個變化萬千的世界中迭代快速,建議還是專注在對「決策」或和其他團隊溝通時有重要影響的指標就好,並不是看越多越好唷。

之前我也有另外一篇關於實驗隨機分配大踩雷的分享,如果想了解更多實驗(踩雷)細節,歡迎延伸閱讀:

3PM LAB

產品三眼怪實驗室 (◉◉◉) - 來自網路圈的三位 PM…

Nana Chiang

Written by

一個之前在新加坡、現在搬到荷蘭阿姆斯特丹工作的台灣產品經理 🇹🇼🇸🇬🇳🇱 希望可以透過一些經驗分享,增加產品經理相關繁體中文內容 🧡 | LinkedIn @ nanachiang

3PM LAB

3PM LAB

產品三眼怪實驗室 (◉◉◉) - 來自網路圈的三位 PM ,分享網路產品經理實務、產品開發案例、趨勢、新知。歡迎訂閱三眼怪加入我們的實驗室,每週末定期更新,別錯過最新文章!ooohh!

More From Medium

More on 產品心法 from 3PM LAB

More on 產品心法 from 3PM LAB

More on 產品心法 from 3PM LAB

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade