Veri Madenciliği Sınıflandırma

Veri madenciliğinde sınıflandırma kavramı, basit olarak bir veri kümesi üzerinde tanımlı olan çeşitli sınıflar arasında veriyi dağıtmaktır. Sınıflandırma algoritmaları, verilen eğitim kümesinden bu dağılım şeklini öğrenirler ve daha sonra sınıfının belirli olmadığı test verileri geldiğinde doğru şekilde sınıflandırmaya çalışırlar.

Veri kümesi üzerinde verilen bu sınıfları belirten değerlere etiket ismi verilir ve gerek eğitim gerekse test sırasında verinin sınıfının belirlenmesi için kullanılırlar.

Sınıflandırma algoritmalarının çalışması iki aşamadan oluşur:

  • Eğitim verisi üzerinden öğrenme
  • Öğrenilen değerlerle test verisi üzerinden sınıflandırma

Ancak veri madenciliği ve iş zekası çalışmalarında sınıflandırma sadece çalışmanın bir bölümünü oluşturmaktadır.

Belli başlı sınıflandırma algoritmaları ve sınıflandırma ile ilgili konular:

  • Support Vector Machine(Destekçi Vektör Makinesi)
  • Non-Linear SVM(Doğrusal olmayan SVM)
  • Data Stream Mining(Veri Akış Madenciliği)
  • Naive Bayes Classifier(Naif Bayes Sınıflandırıcısı)
  • Naive Bayes Text Classification(Naive Bayes ile Metin Sınıflandırma)
  • Decision Tree Learning(Karar Ağacı Öğrenmesi)
  • KNN, K-Nearest Neighborhood(K-En Yakın Komşu)

Veri kümesine Özgü İşlemler

  • Information Gain(Bilgi Kazanımı)
  • Entropy(Entropi)

Sınıflandırma Algoritmalarındaki Hata Ölçüm Yöntemleri

  • Error Calculation
  • RMSE, Root Mean Square Error
  • F-1 Score
Show your support

Clapping shows how much you appreciated sercan’s story.