資料的四大來源:企業資料、雲端資料、開放資料、物聯資料

行銷資料科學
Jun 4, 2018 · 6 min read

資料來源百百款,種類繁複,有些由人們所產生,有些則由機器所產生;有些資料存放在企業內部,極其珍貴,有些資料則屬於外部來源,讓資料科學家可以信手拈來。

資料是資料科學家的「衣食父母」,沒有它們,資料科學家只能原地踏步,但有了資料,資料科學家也需要有慧眼和工具,才能將寶石自礦山中挖掘、篩選和過濾出來。

以下簡單就中原大學資工所賀嘉生教授,所提出的四大資料來源進行說明。

  1. 企業資料:

企業內部資料的來源,主要來自於資料庫(Data Base)或是資料倉儲(Data warehouse)。存放在資料庫裡的資料,源自於企業內各種資訊系統,包括:銷售系統、人力資源管理系統、進銷存系統、顧客關係管理系統(CRM)、企業資源規劃系統(ERP)、供應鏈管理系統(SCM)和企業網站。企業資料通常最難取得,因為這些資料攸關著企業的營業機密。

當企業在進行內部資料分析時,通常採取自製(自行分析)或是外包(委外分析)的方式進行。一旦採取外包時,常要求外包商簽署「保密協定」(Non-disclosure agreement,NDA)不得外洩,否則得賠償。

2. 雲端資料:

雲端資料的種類很多,包括各類社群網站(Facebook、LinkedIn…等)所陳列的個人資料(Social network profiles)。還有,許多人會在網路上分享文章、撰寫評論,甚至是按「讚」(Like)等。

這些資料都可透過網路探勘的方式,將使用者在網路平台上留下的紀錄(例如討論區中討論的內容)存取下來,再加以分析。

不過要注意的是,網路探勘會有違法之虞。根據刑法第三十六章「妨害電腦使用罪」1第358條至363條,一般人不得無故入侵他人電腦主機、無故變更電磁記錄、干擾電腦系統及相關設備、製作專供電腦犯罪之程式等。所以,在網路爬文時,需特別注意。

3. 開放資料:

開放資料(Open Data)的概念由來已久,過去幾百年,科學界已經將許多的研究資料公開給其他研究者進行後續的研究。開放資料真正蓬勃的發展,還是在網際網路出現之後。2001年維基百科成立,截至2017年,已產生550萬個條目。此外,2004年,經濟合作與發展組織(Organisation for Economic Co-operation and Development, OECD)的各會員國,簽署一份共同聲明,要求所有由公家機關出資所收集的資料,都必需被公開。之後,許多政府機關、非營利組織都陸續在網路上公開各種資料。

開放資料是個寶庫,端看我們是否懂得挖掘。以台灣的博連科技2為例,該公司透過連結與整合航空局、台灣港務、關務署、中央銀行等單位資訊,建立iPort2.0系統,讓業者能快速取得最佳的海空聯運方案(例如即時取得海空聯運運費及路徑分析、追蹤貨況)。

4. 物聯資料

物聯網(Internet of Things, IoT)的出現,讓企業可透過各種偵測裝置,紀錄各式各樣的資料。無論是透過手機進行定位,獲得GPS資料,或是透過影像偵測消費者購物的行為獲取影像資料,而這些都屬於物聯資料的範疇。

美國經濟與社會理論學者傑瑞米.里夫金(Jeremy Rifkin)(見下圖,取材自維基百科)在他所著的《物聯網革命:改寫市場經濟,顛覆產業運行,你我的生活即將面臨巨變》3一書中提到,物聯網將會演變成一個高度整合的全球網路,未來人、天然資源、機器、產品、物流、交易、甚至回收等,經濟與生活面向的人事物,都將與物聯網平台進行連接。無論是組織或個人,透過資料科學技術,對物聯網背後所產生的大數據進行分析,將產生對經濟與生活有用的資訊,進而發展出更多的應用與價值。

Jeremy Rifkin, Foto: Stephan Röhl

資料來源:https://commons.wikimedia.org/wiki/File:Jeremy_Rifkin_2009_by_Stephan_R%C3%B6hl.jpg (圖片肖像權由圖片本人擁有,如有侵犯到您的權益,歡迎來信告知,我們會立即刪除。)

當物聯網出現後,除了可以透過「物」來記錄「人」,還可以將記錄的範圍擴大到「物」。舉例來說,智慧家庭的出現,紀錄了許多與人相關以及與物相關的資料。例如:透過攝影機紀錄家庭裡每個人走路的動線,經常出沒的區域。或是透過感測器,紀錄室內的溫度、濕度、電力消耗…等。然後,只要稍微加以分析,就可以改善電力或空調的使用。

以上四種資料的出現,連帶對於資料的處理速度以及資料的儲存,產生了新的需求。舉例來說:為了滿足許多電子商務公司即時蒐集與分析大量資料的需求,讓「分散式運算」以及「非結構化資料庫」(NoSQL)領域有了重大的技術突破。而Hadoop開放式分散式運算系統,以及MongoDB、Cassandra等非結構化資料庫的出現,也讓這些需求得以滿足。

事實上,以上的資料某些看起來很有價值,有些則可能一無是處,但依據筆者的經驗,任何資料背後都有「模型」。而西諺有云「 One man’s meat is another man’s poison(你的美食,可能是他的毒藥),反之亦然,因此沒有無用的資料,資料否能夠產生價值,端賴各位的慧眼,以及是否採用正確的分析方法。

作者:蘇宇暉(台科大管研所博候選人)、羅凱揚(台科大兼任助理教授)

1 中華民國刑法 http://law.moj.gov.tw/LawClass/LawParaDeatil.aspx?Pcode=C0000001&LCNOS=%20358%20%20%20&LCC=2

2 博連資訊科技 http://www.pllink.com/AboutUs.jsp

3 傑瑞米.里夫金(Jeremy Rifkin),《物聯網革命:改寫市場經濟,顛覆產業運行,你我的生活即將面臨巨變》(The Zero Marginal Cost Society: The Internet of Things, the Collaborative Commons, and the Eclipse of Capitalism),陳儀、陳琇玲譯,商周出版,2014/12/11。

Marketingdatascience

行銷資料科學 — 數據驅動精準行銷。基礎概念、趨勢、方法和實戰。

Marketingdatascience

行銷資料科學 — 數據驅動精準行銷。基礎概念、趨勢、方法和實戰。

行銷資料科學

Written by

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR

Marketingdatascience

行銷資料科學 — 數據驅動精準行銷。基礎概念、趨勢、方法和實戰。

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store