數據分析筆記系列

CW Wayne Yeh
Oct 12, 2023

--

Photo by Nick Morrison on Unsplash

這是分析筆記系列文章的集合頁。這個系列收集了我對數據分析的心得,這包含了:各項程式與工具的筆記、對分析本身的想法、分析方法與案例、數據工作者間的協作等內容。在最一開始的這篇,我想先談談身為分析師的工作內容以及分析思維 (身為分析師,進行分析時的腦內活動)。後續的目錄可以找到其他相關文章。

這份筆記有未臻完美的地方,會隨著我個人的精進會再持續調整。此外,我相信持續性的寫點東西是一件有意義的事,也期待在某些場合下,能帶給我不認識的人一點點幫助。

身為分析師

何謂一名數據分析師呢?結合常見的說明,我想可以簡易地描述為「利用數據發掘問題、解決問題」的職業。某些方面,分析師其實很像公司內部的顧問。就我自己的工作日常與見聞來說,可能包含以下任務

  • 各單位的數據諮詢服務:這部分如同扮演內部顧問,解決各單位的問題,如:行銷活動的成效、業務的選品與招商推薦、產品的需求評估和成效追蹤等。具體的執行步驟則包含了:收集資料、處理資料、實驗設計、統計分析、建模、視覺化、簡報製作等項目。
  • 數據管道的協作:在適當的分析與開發環境支持下,間接或是直接參與 DataPipeline (如:ETL) 的建置。
  • 數據專案的規劃:包含開立資料規格、數據追蹤碼埋點規劃 (如:
    GA) 等任務。這部分會很需要和 PM、工程、業務需求方等單位頻繁溝通。
  • 數據探勘與研究:探索性的分析 (EDA) 為主,像是統計用戶的購買週期、RFM屬性等,找尋能夠推動 actions 的 insights,此處的 action 可能是行銷的目標選擇、產品開發或優化等。
  • 數據賦能:教大家看懂數據、利用數據。
  • 數據驅動:推動各單位依照數據進行決策的文化。
  • 數據治理:促進數據交流與整合 (打破數據孤島),提升使用數據的一致性。
  • 其他數據撈取需求:這也許是相對阿雜的部分,沒有分析師會甘願當純粹的資料ATM,但若能控制在一定的比例以內,這不失為一種熟悉資料的方式。

分析思維

我認為分析思維是一種解決問題的能力,對分析師來說,這尤其是利用「數據」來解決問題。舉例來說,簽到得點這樣的活動是否有成效呢?當收到這樣的問題時,我可能會開始思考以下問題

  • 數據上,如何定義簽到得點 (自變數 X) 才能反映問題呢?在本例中,應該定義成一個 0/1 變數還是連續變數呢?
  • 數據上,要用何種指標反映成效 (應變數 Y)?
  • 實驗是個好方法,但不是隨時都能做。取而代之可以用何種分析方式?單純比較幾個群體的平均、迴歸分析,甚至可能從過往資料找到準實驗設計的情境呢¹?這麼做會有任何偏誤嗎?
  • 提供何種資料表格形式、視覺化形式,可以回答需求方的問題且同時易於理解呢?
  • 資料在哪裡?需要如何整合資料?預估工時大概多久?

就我的經驗來說,收到模糊的需求其實是家常便飯,身為分析師,應該要能夠快速地想過以上的問題,並在和需求方來回溝通的過程中逐步釐清,確保最終分析結果可以被正確地解讀與利用。至於,能告訴需求方該怎麼用 (actions),算是更進階的能力了,這需要對需求方的工作內容有一定的了解,這同時也是能讓分析能確實落地的重要步驟。

某種程度上,我認為「分析思維」才是分析師的核心。極端一點,擁有非常清楚的分析思維,甚至可以靠 chatgpt (或是你的碼農好夥伴) 完成分析而不必寫程式。

對於分析思維的養成,我認為過去的實證研究經驗也起到了很大的幫助。只要不是 regression monkey 的話,應該有很大的機會要思考:我要如何用數據回答研究問題 (specification)、分析策略是否有效 (identification) 等。這些過程 (除了執行時間長短外),和分析師實際在處理問題時的思維,確實有很多可比之處。

by **武藏

筆記目錄

程式工具類

  • SQL 系列:我認為 SQL 是用來理解資料操作最好的語言之一,熟悉 SQL 後,無論是使用其他程式或分析軟體,心中便可以先有個想法「啊!我需要 SQL 的 casegroup by」,再據此尋找資源解答。
  • GA4/GTM:GA4 在業界很常見,是一套用來收集網頁與APP 用戶行為數據的分析工具。結合 GTM,更可以讓非工程人員更容易地管理追蹤碼。
  • Python-Spark 使用筆記 [TBA]:為了能妥善利用各種巨量數據(如行為LOG),spark 這樣處理巨量資料的架構就更加重要了。這篇會筆記一些概念與好用的技巧。

分析心得類

  • 對分析師綜合能力的自我期許 [TBA]

其他連結

[1] 這邊的準實驗,是指在某些情境下的某些比較,可以和隨機控制的實驗類比,也就是可以進行因果推論,如:Regression Discontinuity、Difference In Difference 等。

--

--

CW Wayne Yeh

資料分析/閱讀筆記/生活雜感。我是葉政維,台大經研畢,目前是樹鋸分析師🪚,正在職場站穩腳步,也在探索什麼是好的生活。