Makine Öğrenmesinde Doğru Performans Ölçütünü Seçmek: Sınıflama ve Kümeleme Modellerindeki Farklı Ölçütler

Cagdas Hakan Aladag
4 min readApr 17, 2023

--

Makine öğrenmesinde sınıflama ve kümeleme modelleri, büyük miktarda veriye dayalı karar alma süreçlerini otomatikleştirmek için kullanılır. Bu modeller, verileri doğru bir şekilde sınıflandırarak veya gruplandırarak belirli özelliklere sahip olanları birbirinden ayırt etmeyi sağlarlar. Bu işlem, doğru bir performans ölçütünün seçilmesine bağlıdır.

Sınıflama modellerinde, doğru bir performans ölçütü, modelin doğru sınıflandırma yapmasını sağlar. Doğru sınıflandırma, modelin tahminlerinin gerçek değerlere ne kadar yakın olduğunu gösterir. Sınıflama modellerinde kullanılan performans ölçütleri arasında doğruluk, hassasiyet, özgüllük, F1 skoru ve ROC eğrisi gibi ölçütlere yer verilir.

Doğruluk, modelin doğru tahmin ettiği verilerin yüzdesini ifade ederken, hassasiyet, modelin gerçek pozitiflerin yüzdesini tahmin etmesini ifade eder. Özgüllük ise modelin gerçek negatiflerin yüzdesini doğru bir şekilde tahmin etmesini ifade eder. F1 skoru, hassasiyet ve özgüllük arasında bir denge sağlayarak modelin performansını ölçer. ROC eğrisi ise modelin doğru sınıflandırma oranını gösterir.

Kümeleme modelleri ise, verileri doğru bir şekilde gruplamak için kullanılır. Kümeleme modellerinde doğru bir performans ölçütü seçimi, verilerin doğru bir şekilde gruplandırılmasını sağlayacaktır. Kümeleme modellerinde kullanılan performans ölçütleri arasında Silhouette skoru, Cohesion ve Separation, Entropi ve Purity yer almaktadır.

Silhouette skoru, bir veri noktasının kendi kümesinde ne kadar benzer olduğunu ölçerken, Cohesion ve Separation, küme içindeki benzerlikleri ve küme arasındaki farklılıkları ölçer. Entropi, bir kümenin homojenliğini ölçerken, Purity ise kümenin içindeki farklı sınıfların oranını ölçer.

Doğru performans ölçütlerinin seçilmesi, sınıflama ve kümeleme modellerinin etkili bir şekilde kullanılmasını sağlar. Performans ölçütlerinin farklı amaçlar için farklı modellerin seçilmesine olanak sağladığı göz önüne alındığında, model seçiminde performans ölçütleri dikkate alınmalıdır. Ayrıca, performans ölçütlerinin yanı sıra, verilerin nitelikleri, boyutu ve özellikleri gibi faktörler de modellerin seçimi için önemlidir.

Performans ölçütlerinin seçimi, model seçiminde oldukça önemlidir. Ancak, verilerin nitelikleri, boyutu ve özellikleri gibi faktörler de modellerin seçimi için önemlidir. Veri boyutu arttıkça, modelin performansını ölçmek ve model seçimini yapmak zorlaşır. Ayrıca, verilerin niteliği de modellerin seçimi için önemlidir. Örneğin, veriler karmaşık bir yapıya sahipse, sınıflama ve kümeleme modellerinin doğru seçimi, doğru performans ölçütleri kullanarak yapılmalıdır. Bu nedenle, verilerin özelliklerinin ve niteliğinin dikkate alınması, doğru performans ölçütlerinin seçilmesi için oldukça önemlidir.

Etkili bir sınıflama veya kümeleme modeli oluşturmak için doğru bir performans ölçütünün yanı sıra veri özelliklerinin de dikkate alınması gereklidir. Örneğin, veriler kategorik veya sayısal olabilir. Kategorik veriler için farklı sınıflama yöntemleri kullanılırken, sayısal veriler için farklı yöntemler kullanılır. Ayrıca, verilerin boyutu da performansı etkiler. Büyük boyutlu veriler daha fazla hesaplama gücü ve bellek gerektirirken, küçük boyutlu veriler daha hızlı işlenirler.

Bunun yanı sıra, sınıflama ve kümeleme modellerinin etkili bir şekilde kullanılabilmesi için doğru öznitelik seçimi de önemlidir. Öznitelikler, verilerin temel özelliklerini ifade eder ve doğru seçilmesi, modelin doğru sonuçlar vermesini sağlar. Öznitelik seçimi yaparken, verilerin boyutu ve niteliği göz önünde bulundurulmalıdır.

Sonuç olarak, yapay zekâ sınıflama ve kümeleme modelleri, büyük miktarda veriye dayalı karar alma süreçlerini otomatikleştirmek için kullanılır. Doğru performans ölçütü seçimi, modelin doğru sonuçlar vermesini sağlar. Performans ölçütleri, farklı amaçlar için farklı modellerin seçilmesine olanak sağlar. Verilerin nitelikleri ve boyutu, performansı etkiler ve doğru öznitelik seçimi yapılması önemlidir. Tüm bu faktörler, etkili bir sınıflama veya kümeleme modelinin oluşturulmasına katkı sağlar.

Örneklerle bu anlatılanları detaylandırmaya çalışalım. Sınıflama modellerinde kullanılan performans ölçütlerinden biri doğruluk (accuracy) ölçütüdür. Doğruluk, modelin doğru tahmin ettiği verilerin yüzdesini ifade eder. Örneğin, bir sınıflama modeli 100 adet örnek üzerinde çalıştırıldığında, 80 örneği doğru sınıflandırmışsa, doğruluk ölçütü %80 olarak hesaplanır. Ancak, doğruluk ölçütü tek başına yeterli değildir. Örneğin, sınıflandırılan verilerin bir sınıftan diğerine çok dengesiz dağılım gösterdiği durumlarda, modelin doğruluk oranı yüksek olabilir ama aslında performansı düşük olabilir.

Bu durumda kullanılabilecek performans ölçütlerinden biri F1 skoru’dur. F1 skoru, hassasiyet (precision) ve özgüllük (recall) ölçütlerinin harmonik ortalamasını ifade eder. Hassasiyet, modelin gerçek pozitiflerin yüzdesini tahmin etmesini ifade eder. Özgüllük ise modelin gerçek negatiflerin yüzdesini doğru bir şekilde tahmin etmesini ifade eder. Örneğin, bir sınıflama modeli hastalık teşhisi için kullanılıyorsa, hassasiyet modelin hasta olanların yüzdesini doğru tahmin etmesini, özgüllük ise sağlıklı olanların yüzdesini doğru tahmin etmesini ifade eder. F1 skoru, hem hassasiyet hem de özgüllük performansını dengeler ve performans ölçütü olarak daha güvenilirdir.

Kümeleme modellerinde kullanılan performans ölçütlerinden birinin Silhouette skoru olduğu belirtilmişti. Silhouette skoru, bir veri noktasının kendi kümesinde ne kadar benzer olduğunu ölçer. Örneğin, bir mağaza müşteri veri setinde, müşterilerin satın alma alışkanlıklarına göre farklı kümelere ayrılmak isteniyor. Silhouette skoru, her bir müşterinin ait olduğu kümedeki diğer müşterilere ne kadar benzediğini ölçer. Bu ölçütün yüksek olması, kümenin homojen olması anlamına gelir.

Küme içindeki benzerlikleri ve küme arasındaki farklılıkları ölçen Cohesion ve Separation ölçütlerinden bahsedilmişti. Cohesion, bir kümenin içindeki örneklerin birbirine ne kadar benzediğini ölçer. Separation ise, farklı kümeler arasındaki örneklerin birbirinden ne kadar farklı olduğunu ölçer. Bu ölçütlerin yüksek olması, kümenin homojen olması ve farklı kümelerin birbirinden ayrı olması anlamına gelir.

Regresyon modellerinde ise performans ölçütleri genellikle hata ölçütleri olarak kullanılır. Örneğin, ortalama kare hata (mean squared error) ölçütü, modelin gerçek ve tahmin edilen değerler arasındaki farkların karelerinin ortalama değerini ifade eder. Bu ölçütün düşük olması, modelin daha iyi bir şekilde uyum sağladığı anlamına gelir. R-kare (R-squared) ölçütü ise, modelin ne kadar iyi bir şekilde uyum sağladığını belirlemek için kullanılır. R-kare değeri 1'e yaklaştıkça, model gerçek verilere daha yakın bir şekilde uyum sağlamış demektir.

Bu performans ölçütleri, makine öğrenmesinde sıkça kullanılan ancak yalnızca birkaç örnektir. Hangi performans ölçütünün kullanılacağı, veri setinin özelliklerine ve modelin amaçlarına bağlıdır. Ayrıca, bir performans ölçütü yalnızca bir bakış açısını yansıttığı için, birden fazla performans ölçütü kullanmanın daha sağlıklı sonuçlar elde etmek için önemli olduğu da unutulmamalıdır.

--

--

Cagdas Hakan Aladag

Professor of Statistics || Consultant || Optimization Expert || Data Scientist || Vice President of Turkish Statistical Association