Naive Bayes ile Metin Sınıflandırması

Naive Bayes yöntemini kullanarak Metin sınıflandırması yapabilirsiniz.

  • Spam Sınıflandırması (Spam veya Değil)
  • Epostaları Klasörleme (Örneğin Finansal, Reklam, Sosyal Medya, Ulaşım vb..)
  • Ürünleri Sınıflandırma (Elektronik, Giysi, Oyuncak)
  • Sentiment(Duygusallık) Analizi (Olumlu veya Olumsuz yorum)

En başta supervised learning için etiketlediğimiz belgeleri sisteme tanıyoruz. Bu tanıtma işlemi sırasında arka planda Sözlük oluşuyor.

Yeni gelen bir input için bu sözlükteki değerler doğrultusunda Feature Vector oluşturuyoruz. Özetle aşağıdaki resimde

Sıranın söz konusu olmadığı bu tür yöntemde Bag Of Words de deniyor. Aşağıdaki örnekte 10000 kelimelik bir sözlükte x metninin oluşturduğu Feature Vector görebilirsiniz.

Naive Bayes(Generative Classification) algoritmasının Regression (Descriptive Classification) göre hem basit, hem hızlı, hemde ölçeklenebilir olması olması bir çok yerde kullanılmasına sebep olmuştur.

Discriminative vs Generative

Discriminative Algoritmasında sınıflandırma yapmak için bir eğri bir formül bulmaya çalışırız.

Dicrimitive

Logistic Regression yönteminde formül aşağıdaki yöntemle bulunur.

Logistic Regression Classification

Generative Algoritmasında sınıflandırma yaparken bu grupları içerisindeki özelliklere göre gruplandırırız.

  • Mavi yuvarlaklar bir grup
  • Kırmızı çarpılar diğer grup

Temel olarak iki yöntem farklı şekillerde hesaplama yaptığını görebilirsiniz.

  • Discrimine yöntemde fonksiyon içerisinde (x) değerini koyduğumuzda formül bunu değerlendirerek bire 0 veya 1 sonucunu verir.
  • Generative yöntemde ize içerde yer alan feature ilgili etiketlenmiş sınıflarda bulunma ve bulunmama istatistiğine göre ortaya çıkan bir sonuçtur.
Dicrimitive vs Generative

Alttaki istatiksel hesaplama şu şekilde gerçekleşir.

Bunun sonucunda bir olasılık tablosu oluşturuyoruz. Bu tabloda önce elimizdeki değerler ile Frekans Tablosu oluşturuyoruz. Bu tablo üzerinden Olasılık tablosu oluşturuyoruz.

  • (Güneşli | Oynama) olasılığı bizim için (Input | Sınıflandırma)
Olasılık Tablosu..

Not:

Yukarıdaki görseller için aşağıdaki video dan faydalandım:

Okumaya Devam Et 😃

Bu yazının devamı veya yazı grubundaki diğer yazılara erişmek için bu linke tıklayabilirsiniz.

--

--