İki Aşamalı Kümeleme

Two Step Cluster

Doç. Dr. Serkan Savaş
Veri Madenciliği
2 min readMay 20, 2020

--

İki aşamalı kümeleme algoritmalarında, ilk akla gelen Punj ve Steward (1983) tarafından önerilen klasik iki aşamalı kümeleme algoritmasıdır. Bu algoritma, Ward’ın minimum varyans yöntemi ile “Kmeans” yönteminden oluşan bir hibrid yaklaşımdır. Böyle bir karma yaklaşımın avantajı, Ward’ın minimum varyans yönteminin, “K-means” yönteminin gerektirdiği küme sayısını hesaplamasından ileri gelmektedir [1].

Two Step Cluster

İki aşamalı kümeleme algoritması, öncelikli amaç olarak büyük veri tabanlarını analiz etmek için tasarlanmıştır. Bu algoritma, kümelerdeki gözlemleri ayırıcı özellik yaklaşımını kullanarak gruplandırır. Klasik kümeleme algoritmalarına kıyasla iki aşamalı kümeleme analizi, hem daha devamlı hem de daha öznitelikli kategoriler sağlar. Ayrıca bu yöntem otomatik olarak optimum küme sayısını kendisi belirler.

İki aşamalı kümeleme algoritması, ön-kümeleme, tipik veri türlerini çözümleme ve kümeleme aşamalarını gerçekleştirir. Ön kümeleme sırasında verilerin her biri incelenerek, her bir veri bir önceki kümeye dahil edilebilir mi yoksa başka bir küme başlatılmalı mı diye karar verilir. Bu karar verilerin birbirlerine uzaklığına göre alınır. Öklid uzaklığı ve log-olasılık uzaklığı olmak üzere iki uzaklık ölçütü vardır. Tipik veri çözümleme aşamasında, herhangi bir kümeye dahil edilemeyen veriler değerlendirilir. Ekleme işlemi için tüm denemeler gerçekleştirildikten sonra dahiliyet yine sağlanamaz ise, bu veriler dış veriler olarak ayrılır. Kümele aşamasında ise bir ağaç yapısı oluşturulur. Tüm veriler kökten yapraklara doğru dağıtılmaya başlanır. Her bir veri kendisine yakın bir dala tutturulur, eğer dahil edilecek grup sayısı optimum grup üyesi sayısına ulaşmışsa, uzaklık ölçütüne göre en uygun diğer bir dalda diğer bir kümeye tutturulur.

En uygun küme sayısını otomatik olarak belirlemek için, BIC (Schwarz’s Bayesian Information Criterion) veya AIC (Akaike’s Information Criterion) yöntemleri kullanılır.

KAYNAK

[1] Taşkın, Ç. ve Emel, G.G., “Veri madenciliğinde kümeleme yaklaşımları ve kohonen ağları ile perakendecilik sektöründe bir uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 15(3): 395–409 (2010).

--

--

Doç. Dr. Serkan Savaş
Veri Madenciliği

Doç. Dr. — Kırıkkale Üni. Mühendislik ve Doğa Bilimleri Fk. Bilgisayar Mühendisliği | Linked-In: linkedin.com/in/serkansavas/ Ins: instagram.com/dr.serkansavas