[note] Head First Data Analysis Ch5

Hypothesis Testing

Sheng-Chuan Yen
Big Data

--

這一章舉了一個作手機殼公司(後面稱殼公司)來當例子,老闆想知道下一代的潮手機什麼開賣,他想前開賣前一個月製造手機製等待潮手機開賣後帶來的錢潮。目前殼公司擁有幾個確認過的消息,這些消息來自blog、官方網站、新聞…etc。重點就是,老闆想請你幫他根據這些消息分析潮手機有可能開賣的時間點。

這時候應該怎麼作呢? 沒有內線消息的我們只能旁敲側擊、步步逼近。現實的狀況不像學校上 Logic 課這樣若 A 則 B 這麼單純,所有我們收集到的證據組成的是一個 Network。本章告訴我們可以對於收集到的證據及目前的 background 標示出正向或負向的關係然後畫成一張關係圖來幫助我們思考及分析。

Falsification is the heart of hypothesis testing

好的,那我們現在來看一下我們的幾個猜測 (hypothesis): 潮手機明天出;一個月後出;半年後出;一年後才出;乾脆不出了。

在這邊你可能就會想說,該不會就是根據這些資料然後憑經驗選出一個最對猜測的吧。如果你是這樣想那你一定是沒有看懂上面的引言,引言說的是不要用直覺來選出最可能的猜測,而是要用 反證法 。用反證法可以避免資料分析師個人過於主觀的想法,我們需要根據手上有的證據來把不可能的 hypothesis 先刪掉。

Diagnosticity is the ability of evidence to help you assess the relative likelihood of the hypotheses you’re considering. If evidence is diagnostic, it helps you rank your hypotheses.

若我們利用反證法刪去後,還有不只一個 hypotheses 的話就可以利用手上的證據來對剩下的 hypotheses 來評分。這樣講有點難懂,例如說我們有 3 個 hypotheses: H1, H2, H3. evidence #1 對於這三個 hypotheses 的關係是幫 H1 +2 分,H2 +1 分,H3 -1 分,然後把 evidence #1~n 都照一樣的方式作成一個表格,然後把分數加總起來就可以得到一個合理且量化的結果。若之後又得到新的 evidence,就可以把它加進來再作一樣的事情。

--

--

Sheng-Chuan Yen
Big Data
Editor for

Software Developer, Data Science Student, Family Photograper