Yarı Denetimli Öğrenme Algoritmaları

Merve Tatlıdil
SeturTech
Published in
4 min readNov 29, 2023
Kaynak : www.shutterstock.com
Kaynak : www.shutterstock.com

Herkese Merhaba, Yarı Denetimli Öğrenme Algoritmalarına girişi, Yarı Denetimli Öğrenme Nedir? yazısı ile yapmıştık. Bu yazıda Yarı Denetimli Öğrenme Algoritmaları türlerine yer vermek istedim.

Yarı Denetimli Algoritmaların Özellikleri

  • Continuity (Süreklilik) : Birbirine yakın noktaların aynı etikete sahip olma olasılığının daha yüksek olduğunu varsayar
  • Cluster (Küme) : Noktalar farklı kümelere bölünebilir ve aynı kümedeki noktaların aynı çıktı etiketine sahip olma ihtimalinin daha yüksek olduğunu varsayar.
  • Manifold (Manifold) : Noktalar yaklaşık olarak giriş uzayından daha düşük boyutlu bir manifolddadır. Böylece bir manifoldda tanımlanan mesafelerin ve yoğunlukların kullanılmasına olanak sağlar.

Algoritmalar

  • Inductive (Tümevarımsal) Öğrenme : Amaç yeni verilere genellemektir. Bu nedenle, etiketlenmiş bir eğitim setinden öğrenen ve yeni verilere genelleyen bir algoritmanın oluşturulması anlamına gelir.
  • Transductive (Transdüktif) Öğrenme : Amaç, bilgiyi etiketli eğitim veri kümelerinden mevcut etiketlenmemiş (eğitim) verilere dönüştürmektir.
  1. Self Training

Yarı denetimli makine öğreniminde sıklıkla kullanılan bir tekniktir. İlk adımda, sınıflandırıcı ilk olarak küçük boyutlu etiketli verilerle eğitilir. İkinci adımda bu sınıflandırıcı etiketlenmemiş verileri sınıflandırmak için kullanılır. En güvenli etiketlenmemiş noktalar, tahmin edilen etiketlerle birlikte eğitim setine eklenir. Bu işlem tekrarlanarak sınıflandırıcı eğitilmeye devam edilir ve böylece prosedür tekrarlanır. Bu algoritmanın Pseudo Kodu:

Sınıflandırıcı, kendi kendine öğretmek için kendi tahminlerini kullanır. Bu yöntem Yarowsky tarafından 1995 yılında örneğin ‘bitki’ kelimesinin canlı bir organizma mı yoksa fabrika mı anlamına geldiğine karar vermek için kullanıldı. Bu yöntem çeşitli doğal dil işleme projelerine uygulanmıştır. Bu algoritma bir wrapper algoritmadır ve genel olarak analiz edilmesi zordur. Bu algoritma aynı zamanda görüntü tanıma sorunları için de kullanılabilir.

2. Generative Mixture Models

En eski yarı denetimli makine öğrenimi yöntemlerinden biridir. Üretken bir model: P(x,y) = p(y)p(x|y) => burada p(x|y) tanımlanabilir bir karışım dağılımıdır. Örnek olarak Gauss karışım modellerini verebiliriz. Büyük miktarda etiketlenmemiş veriyle karışım bileşenlerini tanımlayabiliriz; bu nedenle ideal karışım dağılımını tam olarak belirlemek için her bileşen için yalnızca bir etiketli numune gereklidir. Bu teknik için:

  • Tanımlanabilirlik
  • Model doğruluğu
  • Beklentiyi en üst düzeye çıkarma
  • Küme ve etiket düşünülebilir

3. S3VMs ( Semi — Supervised Support Vector Machine)

Belirlenen varsayıma dayalı yarı denetimli bir öğrenme yöntemi olarak önerilmektedir. Temel amacı etiketli veriler ve etiketsiz verileri kullanarak sınıflandırıcılar oluşturmaktır. Bazı sınıflandırma problemlerinde yaygın olarak kullanılabilir. Görüntü sınıflandırma ve metin sınıflandırma, yarı denetimli destek vektör makinelerinin potansiyel uygulama alanlarıdır ve iyi sonuçlar verir. Etiketli ve etiketsiz verilerin maksimum sınırı aranır.

4. Graph — Based Algorithms

Grafik tabanlı yarı denetimli yöntemler, düğümlerin veri kümesindeki etiketli ve etiketsiz örnekleri temsil ettiği ve kenarların (ağırlıklandırılabilen) örneklerin benzerliğini yansıttığı bir grafiği tanımlar. Genel olarak bu yöntem, grafik üzerinde etiket tekdüzeliğini varsayar. Bu grafiklerde, düğümlerin etiketlenmemiş ve etiketlenmiş örneklerle gösterildiği bir düğüm ve kenar grafiği oluşturulur; kenarlar etiketsiz ve etiketsiz numuneler arasındaki benzerlikleri gösterir.

  • Çok sayıda etiketli veri varsa en yakın komşu algoritması kullanılabilir.
  • Çok sayıda etiketlenmemiş veri varsa, bunlar çözümleme aracı olarak kullanılabilir.
  • El yazısı tanımlama için kullanılabilir :
  • Metin sınıflandırmasında kullanılabilir :
- Astronomi ve Seyahat dersi
- Benzerlik, örtüşen kelimelerle ölçülür.
- Etiketli verilerin tek başına yetersiz olduğu durumlarda.
- Üst üste binen kelimeler yok!
- Etiketlenmemiş verileri kullanırken
- Etiketler benzer etiketlenmemiş kelimelerle eşleşir

Kullanılan algoritmalar :

  • Mincut
  • Harmonik
  • Manifold Düzenlemesi
  • Yerel ve Küresel Tutarlılık

5. Multiview Algorithms

Aynı giriş verilerinin yedek görünümlerine duyulan ihtiyaç, çoklu görünüm ve tek görünüm öğrenme algoritmaları arasındaki önemli bir farktır. Bu çoklu görsellerle öğrenme görevi bol miktarda bilgiyle yapılabilir.

Co — Training

  • Örneği tanımlayan her örnek veya özellik iki alt kümeye ayrılabilir.
  • Bunların her biri hedef fonksiyonun öğrenilmesi için yeterlidir.
  • İki sınıflandırıcı aynı verileri kullanarak öğrenebilir.

Pseudo code örneği :

Bir sonraki yazıda görüşmek üzere, Sağlıkla kalın!

--

--