Google Data Analytics #3-Data Analysis Process
在沒有建立或沒有必要以數據分析的思維解決問題時,人們分析事情的方式往往是以直覺 (Gut Instincts) 進行判斷、思考問題進而提出解決方案。這樣的方式應用在數據科學的情境中,很容易被判定為無法了解全貌、無法確保數據公允性 (Fairness) 並且可能強化偏差 (Bias)甚至造成製造偏差的結果。
在Google Data Analytics的課程中不斷強調:
作為一名數據分析師必須以基於事實 (Facts) 的數據,結合數據分析的技能 (Analytic Skills) 提出以數據為導向的策略 (Data-driven Strategy)進而解決問題。
因此,我非常同意數據分析是需要透過一連串團隊合作才能執行的說法。在探索新的議題過程中,必須透過不斷探索問題、提出問題、針對數據多方面測試分析,最後才能得出強而有力的方案解決問題。在任何環節中,如果持有主觀的態度及想法就很容易帶偏風向,進而做出帶有偏差的決策。
在第一門課程 — Foundations: Data, Data, Everywhere中,指出執行數據分析應該遵循的步驟,以及深化每個步驟的方法:
1. Ask (提問)
Business Challenge/Objective/Question
• 定義問題
• 進行有效率的提問
• 建立結構性思考
• 與團隊溝通
2. Prepare (準備)
Data generation, collection, storage, and data management.
• 瞭解數據是如何產生?應該如何被蒐集
• 辨識與使用不同格式、不同類型及不同結構的數據
• 確保數據沒有偏差具有可信度
• 分類數據並妥善保存數據
3. Process (執行)
Data cleaning/data integrity
• 分類數據並妥善保存數據
• 重新定義數據轉化成需要的資源
• 測試、清理數據使其有效被利用
• 驗證並回報清理後的數據成果
4. Analyze (分析)
Data exploration, visualization, and analysis.
• 使用有效的數據分析工具(Spreadsheet, Query language, Data Visualization)
• 分類、篩選數據
• 驗證數據分析結果、闡述數據
• 提出預測進而做出建議
• 提出以數據為導向的決策建議
5. Share (分享)
Communicating and interpreting results.
• 理解視覺化中的數據
• 以視覺化成果增加說服力
• 分享吸引眼球的成果
• 幫助他人理解成果
6. Act (行動)
Putting your insights to work to solve the problem.
• 應用洞悉力理解成果
• 解決問題執行決策
• 創造價值
以下補充知名的科技公司或數據分析相關教學是如何拆分並執行數據分析步驟,有興趣可以自行查閱。傳送門如下:EMC’s data analysis life cycle、SAS’ iterative life cycle、Project-based data analytics life cycle、Big data analytics life cycle、Data life cycle based on research。
數據分析的方法琳瑯滿目,最重要的是時刻保有對數據的好奇心、能以公正的眼光檢視數據、以科學的方法進行分析,自然而然能形成一套自己的系統,解決迎面而來的問題。 🦄