Gözetimsiz Öğrenme ve Kümeleme Analizi(Unsupervised Learning and Cluster Analysis)

Kardelen Erdem

Published in

Machine Learning Turkiye

3 min readMar 20, 2021

Örnek projeyi incelemek için tıklayabilirsiniz.

Gözetimsiz Öğrenme Nedir?

Veri setinde veri etiketlerinin (bağımlı değişken, yanıt değişken, hedef değişkenin)bulunmadığı durumlarda kısacası algoritmanın verileri öğreneceği bir eğitmeninin olmadığı ve algoritmanın farklı yöntemler kullanarak etiketleme yaptığı durumlara Gözetimsiz Öğrenme (unsupervised learning) adı verilir.

Bir gözetimsiz öğrenme yöntemi olarak kümeleme işleminde verinin birbirine olan benzerlikleri dikkate alınarak gruplandırma ve etiketleme işlemi yapılır. Sizlere bu yazımda kümeleme analizinden bahsederek anlatımı bir proje ile pekiştireceğim.

Kümeleme Analizi Nedir?

Kümeleme analizi çok değişkenli istatistik yöntemlerinden biri olmakla beraber kümeleme analizinin kullanım amaçlarından biri verinin temel özelliklerine göre veriyi gruplamak ve benzerlik çıkarımı yaparak bu çıkarım üzerine veriyi etiketlemektir. Diğer bir kullanım amacı ise veri seti için kümelenmiş gruplar oluşturarak kullanıcıya özet bir bilgi sunmaktır.

NOT: Kümeleme analizi kimi zamanlar gözetimli öğrenme(supervised learning) için preprocessing adımı olarakta kullanılabilir.

Bir örnek vererek kümeleme analizinin nasıl fayda sağlayabileceğine bir bakalım.
Diyelim ki bir telekomünikasyon şirketine sahipsiniz, şirketinizi büyütmek ve müşterilerinizi kaybetmemek için farklı stratejilere ihtiyacınız var. Bu durumda mevcut kullanıcılarınızın her biri için analiz yapıp yeni strateji geliştirmek size yüksek maliyete ve zaman kaybına yol açar. İşte tam bu gibi zamanlarda kullanıcılarınıza kümeleme analizi yaparak birbirine çok benzeyen gruplar elde edebilir daha sonra bu benzer gruplara çeşitli fırsatlar, kampanyalar, yeni paketler düzenleyerek amacınıza daha kısa zamanda ve az maliyetle ulaşabilirsiniz.

Kümeleme Analizinde Kullanılan Uzaklık Ölçüleri

Kümeleme analizinde birimlerin birbirlerine olan uzaklıkları ölçülerek birimler arasındaki benzerlik düzeyleri ölçülmeye çalışılır. Birimlerin birbirlerine olan uzaklık değerleri ne kadar düşükse iki birimin benzerliğinin güçlü olduğu söylenir. Nicel verilerin benzerliğini ölçmek için sıklıkla kullanılan yöntemler şunlardır:

Minkowski Uzaklığı
Manhattan City-Block Uzaklığı
Öklid
Mahalanobis

Kümeleme Yöntemleri Nelerdir?

Kümeleme yöntemleri iki temel başlıkta incelenebilir. Bunlar hiyerarşik kümeleme ve hiyerarşik olmayan kümelemedir.

1- HİYERARŞİK KÜMELEME

Temel amacımız gözlemleri birbirine olan benzerliklerine göre alt kümelere ayırmaktır.

Bu yöntemde birimler birbirleri ile farklı aşamalarda bir araya getirilip ardışık olacak şekilde kümeler belirlenir ve belirlenen kümelere girecek birimlerin hangi uzaklık düzeyinde küme elemanı olduğunu belirtir.

Hiyerarşik kümeleme yöntemlerinde küme sayısına görsel olarak karar verilmektedir. Karar verme aşamasında bir ağaç diyagramı olan Dendogram kullanılır.

Hiyerşik kümeleme yöntemlerini Birleştirici Kümeleme Yöntemi ve Bölümleyici (Ayrıştırıcı) Yöntem olarak ifade edebiliriz.

Birleştirici kümeleme yönteminde başlangıçta her gözlem bir küme olarak düşünülür. Daha sonra veri setinde birbirine en yakın 2 gözlem(küme) tespit edilir ve benzerliklerine göre bir araya getirilerek yeni küme oluşturulur. Bu işlem (her iki kümeyi benzerliklerine göre birleştirme) kümeler tek bir küme altında toplanana kadar birleştirilmeye devam eder.
Ayrıştırıcı kümeleme yönteminde ilk adım olarak tüm gözlemlerin bir arada olduğu küme iki alt kümeye daha sonra oluşan yeni kümeler ise birbirine benzemeyen alt kümelere bölünür. Bu işlem gözlem sayısı kadar küme elde edinceye kadar tekrarlanır.
2- HİYERARŞİK OLMAYAN KÜMELEME

Elimizde küme sayısı ile ilgili herhangi bir bilgi olduğunda hiyerarşik olmayan kümeleme yöntemleri kullanılabilir. K-means yöntemi, en çok olabilirlik yöntemi, fuzzy yöntemi gibi birçok hiyerarşik olmayan kümeleme yöntemi bulunur. Gözetimsiz öğrenmede hiyerarşik olmayan kümeleme yöntemlerinden K-means yöntemi kullanılır.

K-Means Yönteminde ilk olarak küme sayısı ve her küme için rasgele bir küme merkezi belirlenir daha sonra her gözlem biriminin her küme merkezine göre uzaklığı hesaplanır ve gözlemler kendilerine en yakın kümelere atanır. Tüm gözlemler için ilk atamalar bitince her küme için yeniden küme merkezi hesaplanır ve bu işlemler belirlenen iterasyon sayısı kadar tekrar edilir. (Örneğin 3 iterasyon için ilk atamalar yapılır yeniden küme merkezleri belirlenir, yeni küme merkezlerine göre tüm gözlemlerin uzaklıkları hesaplanır ve 2. kez en yakın kümeye atanır bu işlem 3 kez tekrarlanır.)

NOT: Kümeleme analizinden sonra grupların kendi içinde homojen, gruplar arasında ise heterojen yapıda olması istenir.

NOT: Grup(küme) sayısı arttıkça kuşkulu gözlem(uç değer) artar. Bu sebeple optimum küme sayısını belirlemek önemlidir.