4招教你煉就資料分析的思維

數據分析那些事
數據分析不是個事
9 min readJan 31, 2019

此文是《10周入門數據分析》系列的第2篇
想了解學習路線,可以先閱讀「10周計劃」

面對資料異常,我們經常會出現「好像是A原因引起的?」「貌似和B原因也相關?」「有可能是C操作不當」的主觀臆測。

或者,拿到一個分析議題,分析「11月銷售資料下降的原因」,是先從產品層面,還是渠道層面著手的茫然無措。
顯然,這樣的思維是亂的。

做資料分析,首先你得具備看待一個事物的邏輯化思維,其次用資料去證明他。

我們會經常聽說兩種推理模式,一種是歸納,一種是演繹。這是麥肯錫思維當中很經典的兩個方法,工作中所有的問題,都可以用歸納或者演繹的形式進行拆分,我喜歡把這個過程稱為「解構」。

這兩種思維模式能夠幫助資料分析師完成原始的業務邏輯積累,在此基礎上快速定位業務問題,提升分析效率。

1、 結構化思維

歸納其實就是把複雜問題分解成多種單一因素的過程,並且將這些因素加以歸納和整理,使之條理化、綱領化。這個過程猶如抽絲剝繭,將一團亂麻理地條條順順。

如何練習結構化思維,這其中會運用一個很重要工具,那就是金字塔模型。

根據《金字塔原理》,「任何事情都可以歸納出中心論點,由中心論點出發,可由三至七個論據支撐,每個一級論點可以衍生出其他的分論點。」如此發散開來,就可以形成以下的金字塔結構思考方式。

但是在你還沒有掌握這種結構化思維方式時,直接用這種思考方式是有一定難度的。這時候就可以採用金字塔原理中的MECE法則去思考結構。具體的操作方式是:
A. 儘可能列出所有思考的要點
B. 找出關係,進行分類。
他的原則是論點之間相互獨立,不重疊;論據窮盡劃分,不遺漏。
舉個例子:

現在有一個線下銷售的產品。我們發現8月的銷售額度下降,和去年同比下降了20%。我想先觀察時間趨勢下的波動,看是突然暴跌還是逐漸下降。再按照不同地區的資料看一下差異,有沒有地區性的因素影響。我也準備問幾個銷售員,看一下現在的市場環境怎麼樣,聽說有幾家競爭對手也縮水了,是不是這個原因。

用結構化思維梳理,就是:

用這種方式思考,能確保思考的點成體系,邏輯嚴謹,要素相互之間不凌亂不打架,思考的點都窮盡。長期練習這種方法,不僅更容易找到邏輯結構,也更容易培養你的結構化思維。

具體,可以閱讀書籍:《金字塔思維》

2、假說演繹思維

以情況為起點的推理方法是歸納推理,以規則為起點的推理方法可以稱之為演繹推理。

比如:
某自營電商網站,現在想將商品提價,讓你分析下銷售額會有怎樣的變化?
首先可以確定銷量會下降,那麼下降多少?這裡就要假設商品流量情況,提價後轉化率的變化情況,然後根據歷史資料匯總出銷量下降的情況,從而得出銷售額的變化情況。

具體的變化情況都可以根據過往的資料來擬合,統計學上也有一些科學的預測模型,後面講數理統計知識時會有涉及。

假設先行就是以假設作為思考的起點,先提出問題,然後用MECE原則梳理關聯因素間的結構關係。

小結

歸納和演繹的思維是資料分析初期必備的,面試考察邏輯思維無非也是這兩點。實際情況中可針對不同的項目要求進行組合應用。在經過一定階段的訓練後,可以幫助提升業務熟悉程度,完成業務的初始積累後,後續的分析過程中就可以逐步減少拓展推理的層級及組合,逐步提升問題原因定位的效率。

3、指標化思維

上述的分析思維,幫助我們去定性問題,接下來我們要介入數據的方式,去定量分析。 首要掌握指標化的思維。

假設有一家電商公司,我們想要了解網站營運的情況如何?營運人員向我們描述,我們的網站的流量很高啊,比淘寶差一點,比京東好一點,每天都有大量的新用戶,老用戶下單也很活躍啊。
那我就疑惑了。流量高是多少?大量的新用戶怎麼衡量?一個手機註冊了算新用戶還是新下單的使用者?下單活躍又是怎麼個活躍法?
這樣的問題相信只能憑營運人員的經驗來判斷,而經驗帶來的「後果」往往是拍腦袋式的決策。

如果用指標化的思維,應該用PV和UV去衡量流量,新用戶下單數和佔比去評價網站的拉新,新老買家佔比等指標去衡量使用者活躍。

很明顯,指標就是用來定義、評價和衡量業務的一個標準。比如網站相關使用者訪問量、停留時長、跳出率等。銷售相關銷售量、銷售額、客單價等。應該很好理解。

指標的設定有兩個經驗:
1.「有總比沒有強」。對於要監控的事物,能有指標的盡量要有指標。
2.「一個好的指標應該是用來衡量具體且可量化的事物」。比如,用戶訪問量、停留時長、跳出率等。

下面這張圖,解釋了什麼是指標化,這就是有無資料分析思維的差異,也是典型的數據化營運。

指標體系

有指標是否就夠了呢?指標按照結構化思維可以形成一個體系,如銷售分析指標體系,生產指標體系,電商行業指標體系。

一家企業建立的資料分析體系通常細分到了具體可執行的部分,可以根據設定的某個指標異常變化,相應立即執行相應的方案,來保證營運的正常進行。

附上一張電商行業的指標體系,各營運範本的指標體系網上一搜一大把,可以參考著建立,後面我也會在我的文章里闡述。

建立指標體系的思路:

向上
可以按業務職能結構劃分,映射出更多維度,比如渠道,營運,產品等相關範本,將相關指標映射到主要範本,通過簡單快速的溝通,快速定位問題原因。
向下
可以按因果結構劃分,也就是指標分解,利用公式的方法。比如營收=日活*付費率*arpu等指標因果關係進行劃分,通過定位指標波動,定位最細指標,輔助維度下轉,能夠清楚的問題原因。
就像枝丫一樣,從主幹不斷延伸枝丫,將業務用指標評價量化,逐漸形成一個健全的資料分析體系。

4、維度分析思維

最後,站在分析的角度講一下維度思維。
當你有了指標,可以著手進行分析,資料分析大體可以分三類,第一類是利用維度分析資料,第二類是使用統計學知識如資料分布假設檢驗,最後一類是使用機器學習。這裡我們主要了解維度分析法。

維度是觀察資料的角度,例如「時間」、「地區」、「產品」。在具體分析中,我們可以把它認為是分析事物的角度。時間是一種角度、地區是一種角度,產品也是一種角度,所以它們都能算維度。

當我們有了維度後,就能夠通過不同的維度組合,形成資料模型。資料模型不是一個高深的概念,它就是一個多維立方體。

這個概念最早來源於商業智能OLAP技術。資料按照事實表(Fact Table)和維表(Dimension Table)的形式存在。事實表用來記錄具體事件,比如銷量、銷售額、售價、折扣等具體的數值資訊。維度表是對事實表中事件的要素的描述資訊,比如時間、城市、品牌、機型等。

這是一個最簡單的星形模型的實例。

事實表裡面主要包含兩方面的資訊:維和度量,維的具體描述資訊記錄在維表,事實表中的維屬性只是一個關聯到維表的鍵,並不記錄具體資訊;度量一般都會記錄事件的相應數值,比如這裡的產品的銷售數量、銷售額等。維表中的資訊一般是可以分層的,比如時間維的年月日、地域維的省市縣等,這類分層的資訊就是為了滿足事實表中的度量可以在不同的粒度上完成聚合,比如2016年商品的銷售額,來自上海市的銷售額等。

下圖舉例一個簡化的分析模型,分別由產品、城市、時間這三個維度組成,實際資料分析中,維度遠不止三個。

在資料庫中,可能是這樣兩張表:

我們可以將品牌作為維度,分析手機的銷量情況,也可以將時間作為維度,分析每一年手機市場的份額情況。

多維分析操作包括:鑽取(Drill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(Pivot)。

鑽取(Drill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總資料拆分到更細節的資料,比如通過對2018年華為的總銷售資料進行鑽取來查看各個手機型號的銷售資料。
上卷(Roll-up):鑽取的逆操作,即從細粒度資料向高層的聚合。如將江蘇省、上海市和浙江省的銷售資料進行匯總來查看江浙滬地區的銷售資料。
切片(Slice):選擇維中特定的值進行分析,比如只選擇蘋果手機的銷售資料,或2017年的手機銷售資料。
切塊(Dice):選擇維中特定區間的資料進行分析,比如選擇2016年2017年的銷售資料。
旋轉(Pivot):即維的位置的互換,就像是二維表的行列轉換,如圖中通過旋轉實現產品維和地域維的互換。

為什麼這邊花那麼多筆墨去講維度和度量呢,一者是我們在梳理分析思路時,常常會按照幾個大的維度類去劃分層級,多面分析,如時間維、地域維、產品維,幫助我們成為「多面分析手」。另一方面,BI商業智慧在操作也基於維度一說,熟悉維度和資料模型的原理,能更好的理解這個工具。(沒錯,這玩意兒後面要學)

好了,花了一天的時間整理了資料分析的思維,大家慢慢消化。

為了更好的鞏固,推薦大家去讀《金字塔原理》,可以用思維導圖的方式做好知識點整理,工具推薦Xmind和Mubu。

最後,關於學習計劃

本文是《學習計劃|帶你10周入門資料分析》系列的第一篇,主要是思維上的訓練。

前面的內容已更新在我的專欄里,可以戳下「瞭解更多」關注我的專欄 ~

想瞭解更多的資料分析知識,請關注我的Facebook, 期待你與我互動起來啦~

瞭解更多

--

--

數據分析那些事
數據分析不是個事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/