【均一】資料科學能力養成

Young Tsai
Young
Published in
6 min readNov 30, 2018

2016 @均一,定期回顧一下學習歷程:

初階技術養成

  • 從一開始 RoR 轉用 Python,學習全端(前後端+GAE 維護)開發,可以從頭到尾做出網頁功能,也了解整個網站的架構及資料庫設計,並知道如何讓數據與平台串連,這對於 DS 來說是很重要的基礎知識,避免見樹不見林,因為資料的留存樣貌已經經過一層轉換,離真實世界有一段距離,如果只能在黑盒子之後做事將無法看清全貌,產出非常靠運氣,因此在互聯網的 DS 能在 Web 下進行訓練,跟 PM 這個角色需要與業務、工程師切磋是一樣的道理,都是讓自己的想法跟產出能盡量接地氣
  • 在 BigQuery 從最簡單的 SQL 開始學,一次只能做一種 SELECT、FROM、WHERE 就要存一張表,或轉成 excel ,頂多抓抓 WAU、習題用量等等,通常是一次性的任務
  • 接著,是學會用 Join 語法,快速將兩張以上的 table 合併對照,此時就能做出比較大規模的應用,產出不同維度的及長期趨勢的表,例如 WAU 配合縣市比例、不同學年的師生與使用時間等等
  • 再回到 web,建立專案「星空探險隊」,讓 BigQuery 的資料可以串回均一平台,進行短期活動,這對於 Web + BigQuery 來說,是一項檢視自身技能的機會,是否能用最有效率的 SQL 算出分數,並發布在網頁上,同時要考慮分數更新、頁面 cache、隊伍人數即時更新等等, 也考驗了系統的規模化運營觀念

工具型技術養成

  • 建立 GUI dashboard with spreadsheet,利用較熟悉的 excel 介面 + script access BigQuery 進行資料擷取,讓組織內非工程師的夥伴也能使用資料
  • iPython(Jupyter Notebook) 的學習,也讓更多 EDA、insight 及自我對話留存,這對於後續回顧是很重要的,大概就類似於做資料的筆記本吧
  • 考慮到 R & python 的相容性,rpy2 套件讓 R & python可以在同一份 iPython 進行撰寫,更從中習得 Dplyr,用 pipeline 的方式進行 query,增添程式可讀性,另外,使用 rpy2.robjects 將 R 的 data 轉成 pandas data frame 在 python 中持續使用處理,確保資料分析師之間的協作可能,跨越了語言的隔閡
  • 實現 Data Warehouse 的概念,建立 Integrated Table (也就是前身 tidy table),將所有資料從 NOSQL 轉為 tidy 格式,讓 sql 寫法變簡便,也統一了資料的 source,避免不同資料來源,產出不同數字
  • Jenkins 的工作設定,定期執行 py or R檔,將 routine job 交給機器,同時也可根據結果成功或失敗,設定提醒
  • Metabase 的引進,取代了自製的 GUI dashboard with spreadsheet,讓資料可以快速轉成視覺化,並且可以使用 GUI 的方式操作,將資料在內部使用的門檻降低、產出加速,不用每件事都找 DS,且對內可以結合第三方工具,如:slack、email,定期將資料結果 push 出去,對外可以綁定權限,發佈公開連結,提供下載
  • BigQuery to Metabase 教學計畫:提供內部教育訓練,讓夥伴也能用基礎技巧做資料探勘,並把成果留存
  • Data pipeline 採用 Airflow:將 Pipeline 從線性轉移至 DAG 模式,增加維護性與規模化
  • 將 GA 資料整合到 DataWarehouse:利用cookie、IP 比對,將跨裝置未登入用戶,進行比對,增加歸戶的範圍,減少資料分析者的錯誤判斷

高階決策技術養成

Request- 了解需求

Feature — 功能

Architecture — 架構

Test Case — 測試

Coding — 程式

  • 班級視覺化:提供從微觀與巨觀的面向,用資料視覺化的方式去觀察班級內的行為,降低現場觀課的 effort
  • Data x Content,提供影片品質判斷:分析用戶觀看影片行為,讓內容生產者有效進行影片內容檢討及修正
  • Lv1 teacher 的訂定:從 ML 及 敘述型統計來回檢驗,確認指標的有效性與 actionable,制定了公司在發展過程中需要的重要指標,讓推廣單位有效追蹤 老師 的成效與後續部門 KPI 制定,相關連結:【均一】Sales x Data:如何運用資料幫助 sales 找到有效客戶
  • Data Hero 專案學習從資料 PM 的角度與不同單位的志工進行合作,了解業界目前的程度與慣用工具,並了解一個資料專案的成形需要的必須元素,心得筆記
  • 從產品經理的角度,觀察一個產品從無到有的成型,需要經歷的討論與取捨,建立里程碑,分段執行,並在考量最後如何成功串回資料,用資料檢視成敗,是一個一條龍從規劃、執行到檢視的過程,筆記:Data x Design用途理論
  • Retention Rate 整理 1 2 3 :找出產品長期 retention rate 趨勢
  • 資料產品輔助決策: Data x UX 系列文章
  • Data x BD:利用資料 x 產品的 business model,完成對外生意夥伴的招募,開啟公司 toB 產品線的開端,並招開記者會,相關連結:均一平台和南一書局合作 線上教材用大數據出題

觀察中:

未來 Todo:

Data Engineer

SQL Query Modulize:讓 sql 可以更近似於 ORM,增進可讀性、維護、延展

Data Analysis

Data x Product — User Journey Map 串連資料 → 執行中

Data x Marketing — 學生的客群分層 → 執行中

Data Scientist

AI 學習計畫 — 統計、rule-base AI、ML

教學法資料分析 — 教學法分類 → 執行中,將 ML code production 化

--

--