About Data Mining-part 1

Data Mining的功能

Published in

Bert Jhuang

3 min readMar 9, 2019

一般而言，Data Mining功能可包含下列六項：
1.分類(classification)
2.推估(estimation)
3.預測(prediction)
4.同質分組或關聯法則(affinity grouping or association rule)
5.群集化(clustering)
6.順序/因果(Sequential Modeling)

分類(classification)
按照分析對象的屬性分門別類加以定義，建立類組(class)。例如，將信用申請者的風險屬性，區分為高度風險申請者，中度風險申請者及低度風險申請者。使用的技巧有決策樹(decision tree)，記憶基礎推理(memory — based）。

推估(estimation)
根據既有連續性數值之相關屬性資料，以獲致某一屬性未知之值，分類出來的結果會像「是或否」這樣不連續的答案，而推估所得的結果，則是易於處理的連續性數值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。

預測(prediction)
根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。

關聯規則(association rule)
從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏、牙線)，放在同一間貨架上。在客戶行銷系統上，此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。

同質分組(affinity grouping)
將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation)，但是，假定事先未對於區隔加以定義，而資料中自然產生區隔。使用的技巧包括k-means法及agglomeration法。

群集化(clustering)
是將許多異質的群體區隔，分成一些同質性較高、更相似的子群組或群集，這與分類不同的是，群集化並沒有依靠事先定義明確的類別來進行分類，在分類的作業裡，資料是將訓練組資料，透過某個定義好的類別來進行的。而在群集化的作業中，不需要事先定義好該如何分類，同時也不需要訓練組資料。資料是依靠自身的相近性來群集在一起的，而群集的意義也是要靠事後的闡釋才能得知。群集化通常是其他資料採礦以及模型化的前導作業。如市場行銷調查前，會先根據客戶基本資料將顧客群集化，再分析每群類似的顧客各自最喜歡哪一類促銷，以擬定不同的行銷策略。

順序/因果(Sequential Modeling)
根據既有連續性數值之相關屬性資料，以獲致某一屬性未知之值，這項技術會辨識過去的樣式，如分析客戶過去數次的購物行為。舉例來說，若某次客戶購買引擎用油和過濾器，下次他將會購買汽油添加物，這種分析結果對型錄公司尤其重要，可排定每期的產品內容順序。

About Data Mining-part 1

Data Mining的功能

Written by Bert Jhuang