機器學習系列一:學習機器學習必知的程序 — 資料庫知識探索

行銷資料科學
Marketingdatascience
6 min readJun 17, 2019

「資料庫知識探索(Knowledge Discovery in Database,簡稱KDD)」顧名思義,是從資料庫中,探索出有用知識的程序。隨著大數據的出現,KDD的概念廣泛應用於科學、行銷、投資、製造,甚至是詐欺犯罪調查等不同的領域。透過KDD的探索,我們可以從大量的原始數據中,找到有用的資訊。

根據學者法雅德(Fayyad)等人的觀點,KDD與資料採礦或稱探勘(Data Mining)有所不同。KDD是指整個從數據中發現有用知識的程序。而資料探勘只是KDD程序中的一個特定步驟,如下圖所示。

圖 資料庫知識探索(KDD)程序 (繪圖者:廖庭儀、趙雪君)

法雅德(Fayyad)等人以另兩名學者布拉赫曼(Brachman)和阿南德(Anand)(1996)的概念為基礎,發展出KDD程序的基本步驟:

步驟1 — 訂定目標(identifying the goal)

從消費者觀點(the customer’s viewpoint),確認此次資料探索的目標。蒐集資料的範圍涵括各種相關的實務應用領域(application domain),以及所該具備的技術知識。

步驟2 — 建立目標資料集(creating a target data set)

選擇選擇一個我們有興趣或想更深入探索的資料集來執行運算分析。

步驟3 — 資料清理與前置處理(data cleaning and preprocessing)

對所選定的資料集做資料清理(data cleaning)與前置處理(data preprocessing)。 刪除資料中的雜訊(noise),例如離群值(outliers)、重複紀錄、不正確的屬性值等,同時對資料不足的欄位進行填補(填補方法通常會以平均值,或是高度類似的範例值進行替代)。當資料越完整,對下一步的分析越有利。

步驟4 — 資料轉換(data transformation)

資料轉換主要在進行資料減縮與投影(data reduction and projection),操作上,使用降維(dimensionality reduction)技術,來減少所考慮變數的有效數目。

(以下步驟5–7,皆為資料採礦(data mining)的程序。)

步驟5 — 選擇資料探勘方法(Choosing the data mining method)

例如:分類(classification)、分群(clustering)、關聯(Association)等分析方法。

步驟6 — 選擇資料探勘演算法(Choosing the data mining algorithms)

選擇一個或多個適當的資料探勘的演算法(例如:Decision Tree、Naïve Bayes、Logistic Regression、Random Forest、SVM、Neural Network、K-means、Apriori…等)。這些過程必須要決定哪些模型與參數的選用是適當的,以及再次確定選定的資料探勘方法與KDD整個過程的衡量指標是否一致(例如:相較於模型的預測能力,最終使用者可能對模型的建立更感興趣)。

步驟7 — 資料探勘(data mining)

選定資料模式(patterns)呈現的形式,如:決策樹圖、迴歸分析圖、聚類分析圖…等。讓最終使用者了解根據前面各程序步驟所獲得的資料探勘結果。

步驟8 — 解釋探勘模式(interpreting mined patterns)

對最終選定的資料探勘模式進行解釋。過程中,可能需要返回步驟一至七中的任何一個步驟並且重複執行。

步驟9 — 鞏固發現的知識(acting on the discovered knowledge)

運用KDD最終發現的知識結果並採取行動。同時,也要檢視該知識結果與過去的觀點是否一致。

最後,KDD程序強調步驟之間的交互影響,並且不斷地反覆運行其中的步驟。

資料來源:

Fayyad, Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996), “ From Data Mining to Knowledge Discovery in Databases, “ AI Magazine, Volume 17, Number 3. pp. 37–54.

Fayyad, Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996), “ From Data Mining to Knowledge Discovery in Databases, “ AI Magazine, Volume 17, Number 3. pp. 37–54.

Brachman, Ronald J. and Tej Anand (1996), “The process of knowledge discovery in databases,” Advances in knowledge discovery and data mining, American Association for Artificial Intelligence Menlo Park, CA, USA ©1996, pp. 37–57.

作者:羅凱揚(台科大企管系博士)、蘇宇暉(台科大管研所博士候選人)

繪圖者:趙雪君(臺灣行銷研究特約設計師)、廖庭儀(臺灣行銷研究特約設計師)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

要會機器學習前,我們陪你一起把基礎打好
【Python 0到1 基礎商業數據分析實戰】
🔥 狂賀破200%,搶便宜倒數八天!
🔥 超便宜募資價2388元!
https://hahow.in/cr/python0-1

Python機器學習商務實戰:

🔥 帶您利用機器學習找出獲利最大化!

Python機器學習商務實戰(報名獲🎖️免費3小時價值4,500元🎖️限時Python基礎線上課)

Python商務課程學習地圖:

AI行銷學講座:

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR