TVBS數據架構大解密 (3) — Next Steps
上一篇《TVBS數據架構轉型大解密(2) — 現代數據棧 (Modern Data Stack)》,提到MDS的4項特性和3項優勢,以及TVBS選擇哪些服務與工具堆疊起MDS,最終帶來「團隊進行數據相關任務時變得更靈活」、「更全面的數據視角」、「更高的數據品質」、「數據架構成本得到下降」4項實際效益。
這篇則是要展望未來3到5年,在數據生態圈中有哪些技術架構設計或服務工具是值得關注並嘗試的,主要有4個面向:
- Data Mesh
- Semantic Layer
- Reverse ETL
- Customer Data Platform
Data Mesh
自2019年Zhamak Dehghani提出Data Mesh後,分散式的數據團隊與數據治理就逐漸受到重視。2020年Zhamak Dehghani更進一步闡明Data Mesh的4項原則和邏輯架構:
不少廠商也正將Data Mesh原則帶入旗下產品與服務當中,協助開發者建立適合自家組織的Data Mesh。以下以dbt Labs和Google作為說明:
dbt Labs
dbt Labs自v1.5版開始,試圖強化dbt Core多專案協作功能,提出dbt Mesh,新功能包括:
- 模型治理(Model Governance):如模型存取(Model Access)、模型合約(Model Contracts)、模型版本(Model Versions)
- Two-argument
ref
- 自動偵測模型的破壞性改變
不僅如此,dbt Labs更提出dbt Mesh指引文件,協助組織決定如何建構dbt Mesh並實踐。
Google Cloud自2022年2月正式推出Dataplex,整合原Data Catalog功能,協助組織透過一致化的控管機制,集中管理分散四處的數據資產。
不僅如此,Google更提出Data Mesh on Google Cloud系列文章,協助組織在Google Cloud上透過BigQuery, GCS, Data Catalog, Vertex AI, Dataplex等服務,打造Data Mesh。值得一提的是,觀察2023年新版Google Cloud Professional Data Engineer Certification Exam Guide也可以發現,「設計Data Mesh架構」已經成為數據工程師的核心能力之一。
TVBS約有1400位員工,公司營運所創造的數據分散於各式系統中,若僅仰賴集中式的數據團隊進行數據相關的所有任務,勢必會造成組織營運效率的瓶頸。因此,TVBS正逐步朝向Data Mesh邁進,藉由將控管數據的責任分散式地分配給最靠近數據的營運端,以支持組織的可擴展性和持續變化。
Semantic Layer
Google在2019年宣布以26億美元收購Looker,除了佈局商業智慧市場外,還有另個原因是看上了Looker的LookML數據建模語言。LookML使得數據分析師能以一致化的語言在數據上定義商業友善的指標,接著Looker會根據撰寫好的LookML數據模型,動態建立SQL查詢,最後即可在任何地方使用,包括熱門的BI工具如Tableau、Power BI、Looker Studio等,並且不必擔心底層是哪個數據平台。上述功能正是Semantic Layer的體現。
A semantic layer is a business representation of data and offers a unified and consolidated view of data across an organization. — AtScale
上方說明很好地解釋了什麼是Semantic Layer。Semantic Layer通常位於「數據」和「數據消費者、應用」之間,藉由將數據以一致化、商業友善的方式表達,數據分析師可以在不必解底層系統運作的同時,又能建立有意義的報表以及從數據中探索商業洞察。不僅如此,Semantic Layer也有機會改善LLM幻覺。
值得注意的是,Semantic Layer並不是個全新的想法,早在90年代Business Object (於2007年被SAP收購)就推出了相關工具,協助公司將硬生生的技術名詞轉換成商業友善的、更容易理解的詞,供下游應用和終端使用者使用。相關歷史可以參考The History of a Semantic Layer。
更進一步的觀察專注於Semantic Layer的新創公司Cube Dev,可以發現旗下產品擁有以下4項功能:
- Data Modeling:協助組織在數據上以YAML, JavaScript方式,一致化地、簡單地定義數據指標和維度
- Access Control:提供數據存取控管機制,擁有權限的人才可以取得他該取得的指標
- Caching:提供兩階段Caching機制,降低延遲、減少查詢成本
- APIs:提供SQL, REST和GraphQL三種消費指標的APIs方式,使「數據本身」與「數據終端消費」解耦
我們相信TVBS在下個階段導入Semantic Layer有助於以下兩件事:
- 提升數據民主化程度,賦予同仁自主進行數據分析的能力:Semantic Layer的特性,使得不僅僅是數據工程師,而是整個組織的成員也都能夠輕鬆地與數據互動,進而推動了數據驅動的決策,同時也促進了組織內跨職能同仁的合作。這樣的合作模式不僅加速了組織內部的決策過程,還讓組織在面對市場變化時更靈活與敏捷。
- 提升數據指標一致性,提升團隊成員溝通效率:在Semantic Layer中定義明確的指標和維度,使得團隊成員在溝通相關指標計算時能有一致化的標準,減少溝通失誤。
Reverse ETL
如果ETL指的是將數據從廣告、行銷、顧客關係管理、資料庫等營運系統(Operational Systems)擷取、轉換、匯入至數據分析平台的一系列過程,目的是整合異質數據源並從中產生洞察;那麼Reverse ETL指的就是將處理過後、具有高附加價值的數據,再次從數據分析平台匯回營運系統,目的是將數據洞察轉換成可實際執行的行動,例如廣告投放、行銷活動。常見Reverse ETL使用案例像是:
- 在數位廣告領域,利用機器學習模型從異質數據源中找出特定的目標受眾區隔,並再次匯入廣告系統如Google Ads,進行精準廣告投放。
- 在電商領域,根據購買行為找出具有特定偏好的消費者,並匯入行銷自動化系統如Mailchimp,進行電子郵件行銷。
- 等…
Reverse ETL is the process of syncing data directly from a data warehouse to the operational systems used by your marketing, advertising, and operations teams. This process turns your existing data infrastructure into a Composable CDP so you can power automated and personalized customer experiences across your business. — Hightouch
Reverse ETL is the process of copying data that’s stored in a data warehouse and sending it to downstream tools and business applications like a CRM, marketing automation software, or analytics dashboard for activation. — Segment
我們相信Reverse ETL能協助TVBS
- 維持組織扁平化的同時,又能將團隊量能聚焦於數據轉換、機器學習建模等高附加價值活動上,進而創造競爭優勢。
- 輕易整合多方系統,加快數據驅動的行動至全組織,而不必仰賴數據工程師開發跨系統串接功能。
Customer Data Platform
隨著Apple ITP政策持續限縮第三方Cookies以及Google宣布在2024年移除第三方Cookies,第一方數據越顯重要,CDP也因此在近幾年受到無比重視。網路上也已有許多探討CDP的文章,在此不多著墨。
為了迎接Cookieless時代,TVBS攜手mParticle強化流量經營。我們相信CDP可以協助TVBS
- 整合匿名與實名瀏覽行為,建立360度使用者視角
- 根據商業情境建構受眾區隔,打造新一代廣告產品
- 無縫串接多種營運系統,將數據化為實際行動。
- 個人化使用者體驗
除了傳統常見的CDP,以顧客的數據平台為中心的Composable CDP也正浮出檯面。與傳統CDP不同的是,Composable CDP不將眾多功能整合於單一CDP上,反而是以顧客的數據平台為中心,提供身份識別解析(Identity Resolution)、受眾區隔管理(Audience Segment Management)、數據啟動(Data Activation)等多套解決方案,供顧客根據自身需求選擇所需功能。2023年mParticle推出ComposeID,協助顧客在現有的數據平台上進行身份識別解析。
全文已取得TVBS同意,特別感謝數位開發中心的夥伴們