認識數據網格(Data Mesh)

當我們談到微服務的時候，很多人聽過服務網格(Service Mesh)，甚至不少人透過 istio 這類工具進行實作了。但是，人們對於數據網格(Data Mesh)的理解卻知之甚少，我們經常在介紹產品的場合中，發現很多客戶甚至聽都還沒聽過呢。

Kenny Chen

Published in

Brobridge - 寬橋微服務

7 min readApr 25, 2021

Photo by Ricardo Gomez Angel on Unsplash

Data Mesh 的倡議者

來自 ThoughtWorks 的 Zhamak Dehghani，正式提出了 Data Mesh 這個專有名詞，2018年她在部落格文章 “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh” 中，首次闡釋 Data Mesh 的概念。自此之後，Zhamak 一直從事推廣 Data Mesh 的工作，也是主要的倡導者。

2021年4月 Zhamak 在一個 Webinar 題目 “Data as a product“ 中再次提到 Data Mesh 的核心概念:

https://www.thoughtworks.com/webinar/data-as-a-product#recording

Data Mesh 的基本概念

*（圖片來源：https://martinfowler.com/articles/data-monolith-to-mesh.html* ）

數據網格(Data Mesh)是一種設計和開發數據體系結構的新方法，有別於數據倉庫/數據湖的集中式整體架，數據網格是高度分散的數據架構。

結合集中式數據湖/數據倉庫，數據網格試圖解決的挑戰主要有三：

· 所有權：擁有數據的是數據源團隊還是基礎架構團隊？

· 質量：基礎架構團隊對質量負責，但對數據不甚了解。

· 組織擴展：企業數據湖/數據倉庫中央團隊逐漸成為發展瓶頸。

數據網格所提倡的資料基礎即平臺(data infrastructure as a platform)概念包含了數項功能：

· 資料儲存(storage)

· 資料管線(pipleline)

· 資料型錄(catalog)

· 存取控制(access control)

Data Mesh 的實作挑戰

然而，Zhamak 的文章與影片偏重理論闡述，對於實作則沒有太多著墨，只是蜻蜓點水式的提到即止。但這卻是人們最感興趣的部分，似乎需要完整的專有虛擬化軟體，並且處理數據虛擬化存在的許多問題。而且，在加速數據網格的實現方面，開源工具與商業軟體也存在不少差距，而且還面臨主數據管理（Master Data Management, MDM）和統一維度的挑戰。但是，我們相信持續演進的技術正在解決這個問題。

一般來說，數據網格僅對擁有大量數據域(Data Domain)的公司才有意義，同時可能存在由誰控制數據或數據主權的政治衝突。許多人認爲數據網格通常僅適用於大公司，因為設置環境可能很困難且很耗時，同時也需要非常專業的團隊才有達成的可能。然而在臺灣，能養得起如此規模的技術團隊的公司不多。除了技術養成成本也非常可觀之外，更困難的是缺乏新的資料思維來應對數據網格的顛覆性實作，無論是資料人員還是應用開發人員，都沒能跳脫傳統的集中式處理框架。

不少企業企圖透過企業服務匯流排（Enterprise Service Bus，ESB）來突破資料供應的困局。然而這一點都解決不了集中處理架構的瓶頸問題，反而隨着資料源及應用的增長，中央匯流排的瓶頸效應更是雪上加霜！