DataOps: 將 DevOps 用於 Data(一)

Bryan Yang
DataOpsTW
Published in
3 min readMay 30, 2018

資料漂流帶來的危機

原文:https://streamsets.com/blog/dataops-applying-devops-to-data/(本文經原作者同意後翻譯)

DataOps 是「Data Operations」的簡寫,同時也運用了 DevOps 的概念.這個詞彙由 Tamr 的創辦人及 CEO — Andy Palmer 提出( 2015 blog post ).在這篇文章做,將要深入探討 DataOps 在今日的意義,以及企業如何應用來創造可靠的資料流(dataflow)來發揮資料的價值.

在這篇文章中,Palmer 討論分析的民主化以及導入「目的導向」的資料庫引擎.還有就是對於分析的「速度需求」,有即時、接近即時、以及可以接受的延遲等不同狀況.資料必須是能夠透過多種資料商店及分析方法廣泛被使用的,而且趕上資料消費者以及應用端的需求.

企業使用資料作為競爭武器時將會驅動上面三者的發展.企業需要資料能夠被不同的來源使用,將資料作為普及智慧(pervasive intelligence).集中化、 由 SQL 為主的商業智慧(Business Intelligence)將會進入一個去中心化、進階的分析和機器學習的世界.由公司資料而來的「普及智慧」將會讓「百花齊放」,讓商業利益最大化,無論用來加速產品創新,將事務優化降低成本或降低企業風險.

資料漂流 — 現代疾病需要新的處方

如糖尿病是一種在豐裕的環境下才有的疾病,資料傳遞也在複雜的資料生態環境產生了病變 — 資料漂流.

資料漂流用來形容資料在結構以及意義上無止境、無預期、無法預測的改變

資料標流可以破壞資料管線(Data pipeline)以及對資料驅動的應用帶來終止性、甚至更糟糕的情況 — 像是污染資料後將造成無效的分析.

資料漂流來自資料供應鏈中複雜性的炸裂.由於資料來源無預期的改變,特別是外部資料來源、或是沒有良好管理的資料源(如系統 Log),這通常是因為處理資料的基礎架構調整造成,例如搬到雲端(可以參考孟母三遷系列).最後,資料標流也來自於商務需求的改變,像是要將經緯度加入一個原本只存有地址表格.資料漂流在無聲無息中發生,將衝擊資料商店以及下游的應用和使用者.

傳統的資料整合假設一個有權限的分析核心,以及可分析的「真理之源」 — 有個受到嚴格控制的結構化資料.資料整合類似傳統「瀑布」式的軟體開發流程 — 有一拖拉庫操作系統、建立包羅萬象的資料倉儲然後就可以高枕無憂.「普及智慧」和資料漂流將會破壞這個傳統.面對這種狀況,敏捷的「DataOps」 領域可以處理這個更為流動的環境.

系列文章:

--

--

Bryan Yang
DataOpsTW

Data Engineer, Data Producer Manager, Data Solution Architect