“Bigger” Data than you thought

beanfun! Tech

Published in

beanfun

Aug 15, 2022

beanfun! 神隊友 ── 大數據中心

現今大數據正逐漸成為主流，工程師新鮮人（肝）們趨之若鶩。這不僅是一時的潮流而已，實務上，大數據的應用越加廣泛，集團企業對大數據的依賴也是更為密切。

橘子集團也在2021年正式成立了自己的大數據中心，與beanfun!緊密的合作、互相支持，已然成為beanfun!不可或缺的神。隊。友！

這裡我們會以淺顯易懂的方式聊聊大數據，介紹橘子大數據中心以及數據中心的方向、目標。

在進入正題之前，我們先簡略地整理一下對大數據該有的基本瞭解。

Volume ─ 建構起大數據最根基的要素就是大量的資料，這裡要處理的不只是量而已，這些大量的資料是非常鬆散，也往往是毫無關聯的資料。

Variety ─ 大數據所囊括的資料不再只是單一格式，比如文字。多元化的資料類型大量出現，如圖檔、影片等類型的資料，甚至是用戶行為，點擊、頁面滑動等等都是資料。

Velocity ─ 這裡講的速度是數據系統處理資料的效率，大數據的處理系統必須從傳統的資料處理軟體進化，大幅提升接受與處理資料的速度，才能夠承載現在大量且多元的巨量資料。

Value and Veracity ─ 在進入應用之前，系統還需要驗證資料的價值所在，以及確認其真實性。

基於這些對大數據的理解，再從數據中心的角度出發，首要面對的就是量（Volume） ─ 而且是極為大量的資料。

這裡的量完全是超乎過往人類所認知的 ─ 大概就像我們平常凡人，是無法描述億萬富翁的那億萬資產是個什麼概念。

想想看，現在人類的生活，與電子產品、網路完全是密不可分割的依附狀態。舉凡我們日常生活、工作、社交、休閒，甚至微小到我們與最親密貼身的手機的每一次互動都會是這億萬資產的其中一個積累，太多太多我們的行為都在為這個資訊量作出貢獻。

同時，數據中心要處理的資訊是以多元型態（Variety）呈現。從具體的內容呈現，包括文字、圖片、音訊、影片，到無形的用戶行為，用戶閱讀新聞、購買商品、影音點擊、停留時間、頁面滑動等等，太多不同形式，並且具不同意義的資訊錯落其中。

傳統的資料多是單一結構的資訊類型，整整齊齊地堆疊起來，好儲存、好歸納、看起來好舒心。

多元型態的資訊卻像是俄羅斯方塊一樣，各種不同形狀的方塊就這樣傾瀉而下，那景象讓收納狂看到就是咬指甲乾焦慮。

大量且不同結構的資料不斷倒入，系統有沒有辦法承載並且處理如此巨大、多元且結構鬆散的資訊量，就是大數據中心的首要任務。

接著要考驗的就是對資訊接受與處理的速度（Velocity）。

如此龐大的資料，系統處理的速度必須大幅提升，才能在有限的時間內消化完。否則當下的資料還未處理完，很快又有巨量的新資料湧入，處理的速度跟不上資料更新的速度，資料處理永遠慢了一截，在應用上就會有顯著的落差。

資訊應用是具有時效性的，微小的落差都代表著無法反映即時的現況。要能即時應用資訊，速度就成了必要條件。

那完成Volume、Variety、Velocity這三個任務關卡，就通過了火盃的考驗，贏得了三巫鬥法大賽嗎？

不要忘了，大數據中心處理這些資料是要能夠後續做應用的。而在這裡大量的資訊中，極有可能80、90%都是不需要（更精準地說，是「暫時」不需要），甚至是不真實的資訊。

要繼續發展到資訊應用，大數據中心就必須準確地找到對我們而言是有價值（Value）、真實（Veracity）具可信度的資訊，所以系統還必須要有能力過濾出有用的訊息。

以上種種整理綜合起來，我們要建立大數據中心，最基本的，就是必須能迅速接收、處理大量且多元類型的資料，系統針對資料整理出脈絡後，還要能進一步找出其中有價值且訊息真實的資料，後續才能做到資料的應用。

數據中心迅速處理完巨量的資訊，撈出我們要的部分後，接著，就進入另一個階段的工作 ─ 理解。

在搜集處理完資料後，系統還需要進一步去理解資料，對每筆資料賦予意義，產出有意義的中繼資料後，才能服務終端應用。

因此，資料理解是讓大數據得以應用非常重要的過程。

資料沒有經過理解就沒有用處。透過理解，我們可以整理出用戶的軌跡，了解用戶的喜好、消費行為、生活模式等等，可以藉此完成對用戶的理解。

用戶理解之外，另一個面向就是對內容的理解。

大數據中心會從各種管道搜集各式各樣的內容。新聞台、購物網站、社群媒體等等都是搜羅內容的管道。

什麼是我們要搜集的內容？比如說橘子集團有閑電商販賣的商品，或是NOWnews發佈的新聞，就是我們要搜集的內容。

大數據中心會針對搜集到的內容做系統上的理解與分類。以商品來說，商品的價格、品牌、規格、性能等等就是我們系統要理解並分類的訊息。將所有內容歸納整理後，目的就是要能有效的將內容訊息投放給用戶。

到這邊，我們已經構築起用戶的理解以及內容的理解兩種資料集，並且存放在後端的資料庫。

在進入應用的階段前，針對資料的理解，我們這邊必須拉出來特別說明。

一般的情況，系統進行資訊理解是要提供給資料分析師、行銷或是營運人員做應用。

但是！

我們的大數據中心要做的不只是給人看的資訊理解，我們同時也在發展Machine Learning的資訊理解系統。所以，大數據中心在處理用戶理解以及內容理解之後，數據輸出會分成兩條支線。一條是對人，一條是對機器。

沒錯！我們的大數據中心同時提供讓人以及讓機器使用，兩種不同體系的資訊理解。

為什麼我們如此強調橘子的大數據中心會輸出供機器使用的數據？

因為我們的目標是以系統化、自動化的方式去優化（並且致力達到最佳化）功能、產品、營銷模式等等的利潤效益。所以必須以AI取代傳統的人為操作方式，才能將如此龐大複雜的資料運算自動化、系統化。我們可以預見，這樣的方式必然是未來的趨勢。

人為與AI兩者處理資料的方式，在細節上就有很大的差異。要提供給人，像是資料分析師、行銷或是營運人員，參考用的資訊理解，最基本明瞭的就是以分群的方式解析。

以用戶理解來說，系統會先整理出不同族群，使用資料的人看到的是以群體為區分的資料。畢竟人類的記憶以及大腦處理資訊的速度有限，若是太多細微的資訊，反而造成資料使用上的困難。所以，供人使用的資料理解會透過分群的方式，將資訊以數個重點呈現，使用者才能有效讀取資訊，接著再深入進行研究或應用。

而供機器使用的資料理解則可以更深入細節，並作出更細微的區分。機器的記憶力與處理資訊的速度強大太多，所以可以針對大量的個體做更單一更具體的分析，透過機器表達用戶時可以達到數百甚至到數萬個向量維度。

在現實中，這數千數萬個向量維度，我們可以解釋成每個人生活中在意的所有事情，這些事情會左右所有決定，影響決定的強度又個別不同，所以就像是數千數萬條強度不一的線往不同的方向拉扯，在達到平衡時，就是最後解讀的模樣。

透過Machine Learning獲得的資料解讀可以更精準更具體，應用的效能也會隨之提升。

在理解的階段，無論是提供給人使用或者是機器使用，大數據中心就是要將這些看似毫無意義的數字，整理成可解讀的樣子。

整理歸納後，所有經過用戶理解、內容理解的數據資料，都會存放在數據中台，等待被啟用的時機。

搜集了資料、整理歸納好資訊，所有前置作業都就定位，便要進入應用的階段。

在這個階段，因應所需，大數據中心延伸發展出數據服務。

數據服務是提供集團內部成員使用的服務項目，讓集團內部人員能夠取得所需的數據、資料，進而到拓展到實務上的應用。

前面提到存放用戶理解、內容理解的地方是數據中台，中台除了存放處理過後的數據資料，同時也會設置對外的接口，透過這些接口，大數據中心便能依據不同需求，提供數據服務。

我們的數據服務中最主要的有三個系統 ─ 數據報表系統、洞察系統以及AI服務系統。

數據報表系統，就是將所有整理過的資料以報表的形式呈現，資料使用者透過系統，能夠準確地過濾出他們所需的資料。

洞察系統，在實務的應用上，就更為直覺。

洞察系統則是觀察報表系統內的資料後，根據圖表去推敲出可以執行的方向、策略，讓使用者能直接看出數據的關聯，以及他們可以採取的行動 ─── 什麼分析、策略規劃、執行方式，洞察系統都已經幫你傳扁扁了啦，使用者只需要採取行動！

AI服務系統則囊括多項更偏向個人且細微的服務，例如個人化推薦服務，會根據個人的喜好推薦新聞或是商品等等。或是標籤分類服務，AI會先根據內容做標籤分類，像是NSFW (Not Suitable For Work) 標籤 ─ 不適合上班時看的內容，提醒用戶在適當的時間地點，點擊觀看內容。

我們提供的數據服務就是這麼方便直覺。對營運、行銷單位的人員來說絕對是一大助力，讓他們可以將更多人力、成本投注在策略執行上。

隨著大數據中心的持續發展，未來能拓展的服務將更多元深入，更多的數據服務內容，在未來的篇幅中會再一一談及。

從資料的搜集、資料整理，接著到數據中台，最終提供數據服務。橘子大數據中心就是以一站式整合的方式在運作的。我們相信透過這樣的運作方式，資料的完整性、隱密性能夠得到嚴謹的保護，同時也能確保資料分析、運用的連貫性，讓數據應用的效能最大化的提升。

下一篇，我們將接續聊聊大數據中心的技術運用。

“Bigger” Data than you thought

beanfun! 神隊友 ── 大數據中心

Written by beanfun! Tech