About Data Mining-part 1
Data Mining的功能
一般而言,Data Mining功能可包含下列六項:
1.分類(classification)
2.推估(estimation)
3.預測(prediction)
4.同質分組或關聯法則(affinity grouping or association rule)
5.群集化(clustering)
6.順序/因果(Sequential Modeling)
分類(classification)
按照分析對象的屬性分門別類加以定義,建立類組(class)。例如,將信用申請者的風險屬性,區分為高度風險申請者,中度風險申請者及低度風險申請者。使用的技巧有決策樹(decision tree),記憶基礎推理(memory — based) 。
推估(estimation)
根據既有連續性數值之相關屬性資料,以獲致某一屬性未知之值,分類出來的結果會像「是或否」這樣不連續的答案,而推估所得的結果,則是易於處理的連續性數值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。
預測(prediction)
根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。
關聯規則(association rule)
從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏、牙線),放在同一間貨架上。在客戶行銷系統上,此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。
同質分組(affinity grouping)
將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation),但是,假定事先未對於區隔加以定義,而資料中自然產生區隔。使用的技巧包括k-means法及agglomeration法。
群集化(clustering)
是將許多異質的群體區隔,分成一些同質性較高、更相似的子群組或群集,這與分類不同的是,群集化並沒有依靠事先定義明確的類別來進行分類,在分類的作業裡,資料是將訓練組資料,透過某個定義好的類別來進行的。而在群集化的作業中,不需要事先定義好該如何分類,同時也不需要訓練組資料。資料是依靠自身的相近性來群集在一起的,而群集的意義也是要靠事後的闡釋才能得知。群集化通常是其他資料採礦以及模型化的前導作業。如市場行銷調查前,會先根據客戶基本資料將顧客群集化,再分析每群類似的顧客各自最喜歡哪一類促銷,以擬定不同的行銷策略。
順序/因果(Sequential Modeling)
根據既有連續性數值之相關屬性資料,以獲致某一屬性未知之值,這項技術會辨識過去的樣式,如分析客戶過去數次的購物行為。舉例來說,若某次客戶購買引擎用油和過濾器,下次他將會購買汽油添加物,這種分析結果對型錄公司尤其重要,可排定每期的產品內容順序。