【Tableau Prep】你的數據準備工作Data Preparation到底偷走多少該用來做分析的時間?

能不能把耗時又很手動性的數據準備工作,變得跟在Tableau Desktop裡做分析一樣直觀又有趣?Tableau Prep會說:我可以!

Tableau發現Tableau的用戶花70%-85%的時間在做數據準備,整理好適合用來做分析的數據格式通常是一個很重複性、手動、很花時間的工程。Tableau希望幫助用戶花 20%時間做數據整理,80%的時間用來做分析與討論。

為什麼需要數據準備? 因為我們都明白「Garbage in,Garbage out 」的道理,誰都不想花大把時間做分析,結果其實是在垃圾堆裡下功夫,全盤倒掉重來。

這也是為什麼我們總是耐得住性子、即便費時耗工也要確保原數據沒有涵蓋太多會影響分析結果的不必要變因,只求把分析前的數據變得像Superstore的範例數據這麼整齊又乾淨( 註:Superstore data是Tableau Desktop的範例資料)

若公司內部有IT部門可以助力,很多時候Business User 請IT同事協助提供用來分析的資料時,是必須把所有規則寫下來,讓IT有辦法依據你的規則去做,但很多時候,不是資料沒有規則,而是資料是不乾淨的。

所以結果往往就是離「乾淨的資料」差那麼一點,但這不是IT的錯,也不是你寫規則寫不清楚的錯,而是因為資料準備工作本質上就是一個動態需要一些來回的過程,很難是一條路直走到底,一切就完美結束。

資料準備工作本質上就是一個動態、需要一些來回的過程。

你需要先看見你的資料,真正了解數據的原始面貌(See and Understand)、邊整理邊確認(Combine、Shape、Clean)、最好還可以即時做預覽分析(Pre-Analysis)確認沒有瑕疵。

這篇最適合誰來閱讀?

  1. 如果你的工作內容離不開這些關鍵字: 跨數據源Join/Union、數據塑形Pivot/Aggregation、清理簡化數據Grouping/Aligning value/Split等,且很想簡化重複性作業的 Business User 或 Data Owner.
  2. 已經是Tableau Desktop的熱愛者,很常使用內建的Data Interpreter、Wildcard Union、更改Data Type、Metadata grid等進入worksheet前的準備工作,且常在分析到一半時發覺資料還是有些小瑕疵,需要回頭再整理資料的人。
  3. 正在考慮要不要使用Tableau Desktop且有第一點需求的人(因為這個時間點非常好!)

本文重點

  1. 數據為什麼會不整齊又不乾淨?
  2. Tableau Prep 是什麼?算是 ETL 工具嗎?
  3. 去哪裡下載試用30天?誰又可以免費使用2年?

一、為什麼會有數據不整齊又不乾淨的問題?

所謂的不整齊:常指的是過度加工的格式與結構,不管是用什麼軟體來做分析,機器喜歡的是一維的表格格式,當然Tableau也不例外,一維表格就是指表格第一行代表每一欄的名稱,每一欄位底下跟著數值,一直縱向的向下長。

所謂的不乾淨:常見包含資料內有Null值、需要確認的手誤值、同一個欄位內的名稱寫法不一等。

而這些狀況的主要原因是,在這個到處都有數據產生的時代,企業內的資料倉儲Data warehouse已不是所有數據唯一的棲息地,所以即便有一批數據是已經被ETL整理過,但還是有另外一批是超出原本ETL處理範圍的數據,e.g. 各部門來自公司以外的小批量且實時的雲端應用數據、被人工處理程度不一的Flat File等。

當數據來源越來越多、越來越難一次性統整時,就導致很多分析者的現況:

實際上了花了75-80%的時間在做資料準備,20%才用來分析跟討論。

二、Tableau Prep 不是什麼?可以做什麼?

Tableau Prep 不是用來取代傳統企業級的 ETL工具,相反的,他是用來補足ETL處理後的數據到 Business User端開始分析前的最後一哩路。

  1. 對於IT同仁來說,Tableau Prep的出現就像是自己多了好幾個分身可以去應付Business User 端比較常態性、臨時性或小規模的資料準備請求,這讓IT同仁可以把這些時間投入到管理、策略面的事情上。
  2. 對於Business User來說,Tableau Prep 的出現就像是有個隨傳隨回覆的個人IT助手,這大大減少來回需求溝通成本。

那Tableau Prep 如何補足最後一哩路?可以做什麼?

  • 和Tableau Desktop 一樣直觀拖拉式操作:無需編寫腳本,透過拖拉完成複雜任務,例如Join、Union、Pivot、Aggregation
  • 整理過程從頭到尾可視化:每一個整理動作,都可同步預覽整理的結果、整體的數據脈絡Data Flow,幫助自己知道每個小變動對整個數據內容有什麼影響
  • 自動化找出該整理的資料點:取代費時的查找與手動修改,技術上使用模糊聚類分析算法來完成重復性任務(e.g. 按拼音進行分組或基於標點進行清理)
  • Prep 與 Tableau Desktop 無縫接軌:可隨時從數據準備直接轉入Desktop分析,雖然Prep & Desktop 是兩個軟體介面,但其實是一整套工具,直接加速整個分析的工作流程

三、哪裡可以馬上下載試用?誰又可以免費使用2年的Tableau Prep?

  1. 如果您過去從來不是Tableau 的用戶,也正好在試用14天的Tableau Desktop,當然不能錯過一起試用Tableau Prep!

馬上下載試用版 ☞ Tableau Prep

2. 如果您是2018年04月24日以前的既有Desktop Professional 用戶(不管是買斷的或是第一代訂閱制的),只要都還在有效期內,都可以在customer portal中找到Tableau Prep的使用序號,可使用到2020年6月30日為止。

Q1:那如何在Customer Portal 找到Tableau Prep 的使用序號呢?

A1:

Q2:可以單獨購買 Tableau Prep嗎?

A2: 不可以的,事實上 Tableau Prep 主要是為了 Tableau Desktop而生的資料準備工具,因此最好的方式是和 Tableau Desktop 一起使用,而這兩項產品目前包含在Creator License裡

馬上下載正式版 ☞ ☞

☞ 一小時的Tableau Prep 使用

☞ 使用Tableau Prep整理數據的



About Us:樺鼎商業資訊 PGi (Perform Global Inc.),成立短短7年時間,目前已是Tableau在台灣的 Silver Partner,我們專注於引入全球500大企業最常用的資訊軟體解決方案,致力幫助大中華區的企業更活用數據資產,以企業反應速度建立新的競爭優勢。

服務據點:台北 ▎新竹 ▎上海 ▎深圳

PGi 樺鼎商業資訊

Written by

全台最資深Tableau合作夥伴,我們的使命是幫助大中華區企業打造最省力的數據決策模式。From Data to Insight. Easier & Faster!歡迎拜訪我們全新官網https://www.perform-global.com

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade