救救資料源!開始 ETL 改造!

運用 GRAVITY 強化資料處理能力

Photo by Pixabay on Pexels

如今 ETL 已經是隨處可見,從大數據(Big Data)開始一直到數位轉型,數據資料的取得、處理、分析是最常見的工作。然而,由於資料搜集的需求越來越多、涉及的系統範圍及規模也越來越大,ETL 要經手的資料量除了大之外,複雜性也非常的高,更帶來資料源巨大的壓力。

不只如此,隨著數據驅動的商業模式發展,對數據的即時性也開始有急迫的需求。因此,許多企業已經開始發現,過去許多 ETL 機制,造成既有系統極大的壓力,甚至帶來了數位轉型的嚴重瓶頸。

這些舊 ETL 機制帶來的資料系統困境,已經是企業急於解決的問題,甚至不少企業已經開始著手進行當中。到底這些企業如何以最小成本和風險來改造 ETL 呢?

資料源永遠是最大的苦主

資料源總是有大量且複雜的查詢和格式轉換工作

在 ETL 的資料要求下,資料源系統總是備受壓力,除了要從資料庫大量查詢取出資料、關聯合併資料之外,甚至要進行轉換格式等工作。可以說,ETL 的實現往往伴隨著傳統的資料庫批次處理工作(Batch),每次執行都將帶來巨大的系統存取壓力。

因此,在大多數情況下,ETL 工作的執行頻率不能太高,更不太可能做即時資料收集,以避免影響資料源正常業務的工作。如果資料量實在太大,甚至必須安排在業務離峰時段才能進行。除此之外,當有更多資料應用需求時,更多的 ETL 管線,也會帶來更多的系統負擔,嚴重衝擊資料源的效能及穩定性。

在這樣的架構下,資料源總是最大的受害者,而資料源又往往是第一線的業務系統,導致稍有不慎就損失慘重。可怕的是,伴隨著數位系統規模的成長,不同系統之間的大量資料引用,許多身為資料源的系統,更是瀕臨崩潰。

從 ETL 到 ELT 的改造

利用 GRAVITY 將 ETL 改造成 ELT

ETL 的最大問題,是資料處理壓力通常都落在資料源,因為所有的資料收集、轉換等工作都被打包成一個巨大的任務落在資料源執行。考量到這個問題,ELT 的方法被提出來,讓資料源選擇並獲取資料的工作先行,等到實際需要應用資料時再進行轉換。

這樣的好處是,可以提前選擇指定的資料(資料表、欄位等)進行選擇和快取,然後利用 CDC 等相關技術,資料源只需要在資料變更時拋出一次事件即可,完全紓解資料源的壓力。之後任何應用需要資料時,不再需要跟資料源接觸,只要向資料節點訂閱資料集,接著再依照各自的需要,去進行更細的條件查詢、關聯、轉換和使用。

實現 ELT 後帶來的強大擴展性

藉由增加副本,可以支撐更多的應用

這樣的改造之下,多條管線平行資料處理變得可行,甚至可以同時支撐多條不同邏輯的資料處理管線,只需要將資料節點的資料分散載入並落地到不同資料庫系統,製作成多個副本即可滿足各種應用去使用。而且隨著資料副本的擴增,資料處理的能力也能得到提升,具有強大的擴展性,系統效能瓶頸不再是問題。

避免批次處理,實現即時資料獲取

現代資料處理架構,都開始避免傳統批次資料處理,主要是因為批次處理會帶來系統巨大的壓力,而且多半耗時、資料延遲性高。尤其是當我們在執行 ETL 工作時,一旦試圖降低資料延遲,就需要增加資料收集工作的頻率,對系統產生嚴重衝擊。

利用 CDC 的技術,所有的資料可以即時更新到資料節點,然後也能即時同步到不同應用所需的資料庫或資料倉儲之上,因此不再需要不停地去對資料源施加查詢壓力,以接近即時的資料收集。

總結

ETL 改造之後,在的新架構之下,不但拯救了資料源,即時資料需求也同樣能得到滿足,有更大的實質效益。這也是為什麼企業開始導入數據中台的新管線和節點技術,來打造全新的資料系統架構。

GRAVITY 還有哪些功能?

想要改善資料庫系統效能?想要讓資料系統更彈性?想要抄寫資料到不同類型的資料庫嗎?想實現跨雲資料管控和管線設計?欲知更多 Brobridge Gravity 的好處和功能,歡迎與我們寬橋(Brobridge)聯絡。

--

--