在工作中學習統計應用的五個心得

Eliot Zhang
cathayued
Published in
Dec 16, 2022

身為離開學校超過10年,且中間多半在做質性研究和設計規劃的 UX 從業人員,應該如何應付工作上需要處理的統計問題呢?以下僅呈現幾個筆者加強統計能力的場景,以及學到的經驗,希望對同樣有分析需求的人帶來幫助,如果讀者有發現做法上應該再優化的部分,也歡迎留言討論、或給予指正。以下情節、數字皆經過改寫,如有雷同,純屬巧合。

There are three kinds of lies: lies, damned lies, and statistics.

Mark Twain

背景

筆者所在的公司原本另有團隊在做例行的問卷調查,以便計算各產品與服務的 NPS 分數,並搜集其他體驗優化的質量化回應。不過因組織和人員的異動、工作的分配等諸多因素,就公司裡算有其他更熟練統計分析的同事,部分跟體驗調查有關的量化分析還是需要筆者進行。

情境一:抽樣與母體的差異,應該如何判斷兩者的近似程度?

公司產品的用戶人數差異頗大,有些可達數百萬人,有些僅萬餘人。因此有的問卷回收量可輕鬆破萬;有的已經把所有願意收信的客戶都寄了,且給予不小的抽獎誘因,總回填量仍只有三四百筆。在回收量大時,或許可以用大數法則的觀念,假定抽樣和母體近似;但是當樣本數只有數百筆時,要如何處置呢?

下圖是兩種情況的問卷回填者,在不同年齡層的比例分佈。如果只用肉眼看,能猜出 survey_A 或 survey_B 哪一份是大樣本的嗎?兩份調查的抽樣和母體是否都足夠近似?是否應該採用統計的方式去檢定抽樣與母體間的差異呢?

跟不同的同事討論後,這個議題可以分成四面向來看:

  1. 為什麼抽樣應該跟母體近似,如果不近似會怎麼樣?
  • 抽樣和母體近似,在後續相關發現的解釋上較有說服力。若抽樣時主要回填的族群偏向年輕、數位化能力良好的人,但母體其實有較多年長族群,然後問卷的意見趨勢暗示應該增加更多進階的複雜操作,寫報告時可能就需要再斟酌是否應該主打這樣的結論。

2. 應該如何避免不近似的狀況?

  • 這裡會涉及另一個子議題,要在哪些變數上去檢查抽樣和母體是否近似?年齡層只是最粗淺單純的一個變數。理想上,研究者應該要能從過去的經驗或數據中,猜測哪些變數可能會影響研究意圖衡量的結果(例如推薦意願、滿意度、易用程度),並在事前做更嚴謹的分層抽樣(或其他研究設計手法),來避免抽樣和母體不近似的問題。
  • 然而,實務上難免會遭遇「已經做到類似普查的抽樣範圍了,願意回填的客人仍是特定族群偏多」的狀況,這時候就是「如何讓客戶願意回填問卷」的問題了。

3. 如果發現了不近似的情況,應該怎麼處理?

  • 會先回歸到第一點的討論,不近似的風險有多大;以及第二點的子議題,如何讓原本比較沒興趣回覆問卷的族群回填。接下來還需要考慮如果要為了追求抽樣與母體的近似去補發問卷,在時程、預算上,是否是這個專案願意付出的代價。實務上,最少應該基於研究倫理,把這樣的研究限制寫在報告裡,讓看報告的人把相關的風險納入評估。

4. 需要用到統計檢定嗎?如果真的想用的話可以用哪個?

  • 如果真的想做檢定的話,可使用「卡方適合度檢定 (test of goodness-of-fit)」,若檢定結果呈顯著,則拒絕虛無假設(樣本與母體近似),代表樣本與母體不近似。
  • 如果檢定結果可以為報告的可信度加分,很好,但更重要的會是前三個面向的思考。
  • 前輩的老師曾說,如果用敘述統計就可以做到的,不必特別透過數學去檢定,有越多抽象化的過程,會增加意義解釋上的難度。此外,會想透過檢定強調的,通常是與刻板印象有差異的現象(例如發現高齡者在某項數位功能上的使用狀況顯著高於其他年齡層),如果與日常直觀經驗相符的現象(例如年長者的資產顯著多於年輕者),似乎也沒有檢定的價值。

Lesson Learned

1. To test, or not to test…不是有做統計檢定就代表研究夠嚴謹,真的要嚴謹應該從前期的規劃就開始,不是到最後才檢驗。

2. 實務上,沒那麼嚴謹、但是能及時產出成果、如實反映現象、帶來意義、滿足商業需求的研究,可能會比滿足學術嚴謹、但曠日廢時的結果,對公司更有價值。

情境二:前後兩期的 NPS 分數差異,應該如何進行比較?

某產品因為大環境市況不佳,導致投資績效也跟著不好,上次調查的 NPS 分數掉到 -18%,這一次微幅回升到 -15%,從絕對數字來看是有進步的,但實際上這樣的分數差異真的有顯著嗎?

這次的調查因筆者臨時被交辦其他任務,所以是和剛到職不久的新人一起執行。原本認為這是一個簡單的任務,因為之前其他人做的報告裡面也有類似的比較,只要沿用前人的做法,應該可以很快獲得答案。不過當新人研究了一下已離職的同事交接的公式檔,卻產生了很多疑惑…

因為 NPS 分數並非像民意調查(是某個意見在整體抽樣中的百分比),而是使用如下的題型與定義:

How likely is it that you will recommend (brand, website, service, etc.) to a friend or colleague? (0–10)

Detractors (批評者): 0 to 6
Passives (中立者): 7 to 8
Promoters (推薦者): 9 to 10

Net Promoter Score (NPS):
(Number of promoters — number of detractors) ÷ (number of respondents) x 100

如果要計算的話,新人會建議採用卡方獨立性檢定(網路上就有開源的計算機)進行。也就是說,前後兩次的 NPS 分數其實難以被直接比較是否有顯著上升或下降,因為分數本身已經是被轉換過一次的數值,且因批評者可能多於推薦者,會有負數的狀況出現(民意調查不出現有 -30% 的人會投XX黨的狀況)。用卡方獨立性檢定能評估的,是前後兩次調查中,批評、中立、推薦者三群人的佔比是否存在顯著變化。

經過多方查證、討論後,新人的建議確實比較合理,也將落實到日後的其他報告中。

Lesson Learned

3. 公司大的好處,就是很容易找到比自己更專業的人可以諮詢,較不容易陷入感到迷惑卻找不到人問的狀況中。

4. 在既有流程很多的公司內,仍應保持不盲從、獨立思考的態度,用新人不受既有框架拘束的眼光來看事情,不應該因為前人有給一個文件就無腦依樣畫葫蘆,而是要保持對問題追根究底的精神,理解事情運作的原理後再評估是否沿用。不然就會出現用錯誤公式做出報告而不自知的狀況。

5. 審慎地指出現行的錯誤,並提出改正的解法,是需要道德勇氣的。也符合公司掛在牆上的「誠信、當責、創新」匾額(誤)。

總結

  • 整體而言,無論是用量化還是質化的方法,用戶研究基本上都還是需要用嚴謹的態度來進行,不然 garbage in, garbage out, 產出的結果會根本會不具說服力。但是在實務的商業環境中,是可以放寬某些執行條件,讓專案可以及時地提供組織價值,不過這中間的彈性帶有藝術的成分,需要足夠的經驗才能妥善判斷。
  • 大公司的好處是資源豐富,有問題容易找人問,也能協助從業人員在有領薪水的情況下持續學習、跨出原本的舒適圈、持續擴充相關的技能。

--

--