DataOps: 將 DevOps 用於 Data（一）

Bryan Yang

Published in

DataOpsTW

3 min readMay 30, 2018

資料漂流帶來的危機

原文：https://streamsets.com/blog/dataops-applying-devops-to-data/（本文經原作者同意後翻譯）

DataOps 是「Data Operations」的簡寫，同時也運用了 DevOps 的概念．這個詞彙由 Tamr 的創辦人及 CEO — Andy Palmer 提出（ 2015 blog post ）．在這篇文章做，將要深入探討 DataOps 在今日的意義，以及企業如何應用來創造可靠的資料流（dataflow）來發揮資料的價值．

在這篇文章中，Palmer 討論分析的民主化以及導入「目的導向」的資料庫引擎．還有就是對於分析的「速度需求」，有即時、接近即時、以及可以接受的延遲等不同狀況．資料必須是能夠透過多種資料商店及分析方法廣泛被使用的，而且趕上資料消費者以及應用端的需求．

企業使用資料作為競爭武器時將會驅動上面三者的發展．企業需要資料能夠被不同的來源使用，將資料作為普及智慧（pervasive intelligence）．集中化、由 SQL 為主的商業智慧（Business Intelligence）將會進入一個去中心化、進階的分析和機器學習的世界．由公司資料而來的「普及智慧」將會讓「百花齊放」，讓商業利益最大化，無論用來加速產品創新，將事務優化降低成本或降低企業風險．

資料漂流 — 現代疾病需要新的處方

如糖尿病是一種在豐裕的環境下才有的疾病，資料傳遞也在複雜的資料生態環境產生了病變 — 資料漂流．

資料漂流用來形容資料在結構以及意義上無止境、無預期、無法預測的改變．

資料標流可以破壞資料管線（Data pipeline）以及對資料驅動的應用帶來終止性、甚至更糟糕的情況 — 像是污染資料後將造成無效的分析．

資料漂流來自資料供應鏈中複雜性的炸裂．由於資料來源無預期的改變，特別是外部資料來源、或是沒有良好管理的資料源（如系統 Log），這通常是因為處理資料的基礎架構調整造成，例如搬到雲端（可以參考孟母三遷系列）．最後，資料標流也來自於商務需求的改變，像是要將經緯度加入一個原本只存有地址表格．資料漂流在無聲無息中發生，將衝擊資料商店以及下游的應用和使用者．

傳統的資料整合假設一個有權限的分析核心，以及可分析的「真理之源」 — 有個受到嚴格控制的結構化資料．資料整合類似傳統「瀑布」式的軟體開發流程 — 有一拖拉庫操作系統、建立包羅萬象的資料倉儲然後就可以高枕無憂．「普及智慧」和資料漂流將會破壞這個傳統．面對這種狀況，敏捷的「DataOps」領域可以處理這個更為流動的環境．

系列文章：