學會5個數據分析常見定律,資料敏感度提升N個度

有時候在和技術或者業務交流時,如果對方時不時蹦出個這效應,那定律,自己又恰巧沒有聽過,這時候只能呵呵假裝明白。

其實這些概念也沒有什麼神秘的,今天整理了一下咱們數分領域常見的效應和定律,用通俗易懂的例子輔助解釋,讓大家快速理解掌握!

1.辛普森悖論

辛普森悖論指的是,在對比AB兩個群體的資料,將資料拆分成多個維度時,A組在各個維度下的表現均好於B,整體A組的表現卻並不一定好於B。

沒看懂?來,舉個例子解釋下

最近英國各大高校offer都發了,結果某所高校的兩個學院,法學院和文學院,在招生上被懷疑有性別歧視,我們來看一下招生情況,分析分析。

從表上錄取比例資料來看,女生的錄取比例都比男生高33.6%>15.1%,91.1%>80.1%

但把兩個學院的資料彙總後

會發現結果女生的錄取比例反而比男生低,

這就是經典的辛普森悖論,即在某個條件下的兩組資料,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

其實,“農村包圍城市,武裝奪取政權” 也是有類似的思想。

2、馬太效應

馬太效應出自聖經裡的一則寓言:“凡是有的,還要加倍給他,讓他多出來;沒有的,就把他所有的奪過來,讓他一點都沒有”。通俗地解釋就是 “強的越強,弱的越弱”。

馬太效應在業務中非常常見。比如在推薦演算法中,被判定為質量較好的使用者所得到的資源就越多,這種情況也會形成反饋,得到的資源越多越會被判定為質量較好的使用者,從而加劇這種效應(類似於短影片點贊越多曝光越多,曝光越多點贊越多)。

3.本福特定律

本福特定律,是說一堆從實際生活得出的資料中,以1為首位數字的數的出現機率約為總數的三成,這個定律至今沒有經過一個嚴格的證明。

他就像是一個監控指標,當一組資料不符合本福特定律時,就有理由懷疑資料是否造假。所以此定律經常用在檢測上市公司財報是否造假以及選舉中是否有舞弊現象。

需要注意的是,它可用於檢查各種資料是否有造假,但要注意使用條件:1.資料至少3000筆以上;2.不能有人為操控。

4、倖存者偏差

倖存者偏差,是優勝劣汰之後自然選擇出的一個道理:未倖存者已無法發聲。

人們只看到經過某種篩選而產生的結果,而沒有意識到忽略了被篩選掉的人。

舉個例子,大家肯定都聽過這句話:“讀書有什麼用,我的小學同學他從小成績一塌糊塗,初中都沒念完就退學了,現在生意做得可大了,我本科畢業還不是996租著房吃著泡麵。”

但,實際情況是一個班中會讀書的那幫孩子日後也有生意做得不錯的、也有租房吃泡麵的、也有在家啃老的,可平均生活水準高於不讀書的。但不讀書的孩子中有一些可能欠一屁股債躲起來了、失業沒有工作,這些人你看不到,你只能看到那些倖存者,生意做得可大。

5、帕累託定律

這個名字大家可能並不熟悉,但是一定聽過二八定律,管理學家帕累託透過研究大量事實發現:社會上20%的人佔有80%的社會財富。

比如活躍使用者中僅有20%的付費使用者,付費使用者中20%的使用者貢獻了80%的收入等等。當然20%與80%只是一個統計資料,其實質講的是 “在因和果、努力和收穫之間,普遍存在著不平衡關係” , 即不平衡關係存在的確定性和可預測性。

二八定律告訴我們要把精力放在更本質的事情上,不經規劃地做事情很有可能會浪費80%的精力去產出20%的東西。

在數分工作中,有些同學在做分析的時候,可能經常有這種感受,跑了n個sheet的資料,結果寫報告的時候,只用了四五個資料。

所以在分析的習慣是先思考產生問題的原因,並對每個可能的原因賦予相應的權重,然後以最簡單方便的方法來驗證各個原因,快速排除錯誤方向,而不是在每個原因上都做詳細的解釋。

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

Java程式設計師必會的工具庫,讓你的程式碼量減少90%!

用上這個酷炫新地圖,老闆口中別人家的戰情室大屏你也能搞定!

智慧製造與工業4.0核心在哪裡?不是技術,而是整合思維(附最新全球工業4.0戰略&智慧製造案例)

--

--

數據分析那些事
數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/