Kaynak : www.shutterstock.com

Yarı Denetimli Öğrenme Nedir?

Merve Tatlıdil
SeturTech
Published in
4 min readOct 5, 2022

--

Herkese Merhaba, Makinelerin öğrenmesi konusu çok konuşuluyor. Kimisi kuralları yazılımın içine koymak olarak algılıyor, kimisi tüm örneklerin bu elmadır, bu armut, bu kedi, bu da köpek olarak işaretlemesi olduğunu düşünüyor. Kimisi de verinin dağılımına göre dış müdahale olmadan, bölümlenmesi olduğunu düşünüyor. Etiketli verilerin öğrenilmesi denetimli, etiketsiz verilerin öğrenilmesi ise denetimsiz makine öğrenmesidir. Adından da anlaşılacağı gibi Yarı Denetimli (Semi — Supervised) öğrenme bu iki yöntemin birleşimidir.

Denetimli Öğrenme algoritmasının en büyük dezavantajı, veri kümesinin bir kişi tarafından etiketlenmesine ihtiyaç duymasıdır. Elimizdeki veriler küçük bir küme ise bu büyük bir sorun olmayabilir, ancak büyük hacimli verilerle uğraşırken çok maliyetli bir süreç olabilir. Etiketlenmemiş verilerin elde edilmesi ucuzdur. Denetimsiz Öğrenme yöntemlerinin en belirgin dezavantajı, uygulama alanının sınırlı olmasıdır. Bu dezavantajları ortadan kaldırmak için Yarı Denetimli Öğrenme kavramı ortaya çıkmıştır.

Makine öğrenimi araştırmacılarının çok iyi bildikleri gibi, az miktarda etiketlenmiş veri bile kullanıldığında öğrenme doğruluğunda önemli bir gelişme sağlanacaktır.

Peki nasıl yapacağız? İlk olarak geliştirici, denetimsiz bir öğrenme algoritması kullanarak benzer verileri kümeler ve ardından etiketlenmemiş verilerin geri kalanını etiketlemek için mevcut etiketli verileri kullanır.

Çalışma adımları:

• Model, en iyi sonuca ulaşılana kadar az miktarda etiketlenmiş eğitim verisi ile eğitilir.

• Sözde etiketler, tam olarak doğru olmayabileceklerinden onları tahmin etmek için etiketlenmemiş bir eğitim veri kümesiyle birlikte kullanılır.

• Etiketli eğitim verilerinden gelen etiketler, oluşturulan sözde etiketlerle bağlanır.

• Etiketli eğitim verilerindeki veri girişleri, etiketlenmemiş verilerdeki girişlerle ilişkilendirilir.

  • Hatayı azaltmak ve modelin doğruluğunu artırmak için model, ilk etiketlenen sette olduğu gibi eğitilir.

Makine Öğrenimi Türleri Karşılaştıralım :

Yarı Denetimli Öğrenme, İş problemlerinde nasıl kullanılacak?

Denetimli öğrenme algoritmaları çoğunlukla iş problemlerinin modellenmesinde kullanılır. Başarılı modeller oluşturmak için yüksek kaliteli etiketlenmiş eğitim verilerine sahip olmak gerekir. Yüksek kaliteli etiketlenmiş verilere duyulan ihtiyaç, işletmeler için büyük sorunlar oluşturabilir. Bu sorun kendini birkaç şekilde gösterir:

• Yetersiz miktarda etiketlenmiş veri

• Verileri etiketlemek için yeterli uzmanlığa sahip olmayan geliştirici

• Etiketleme ve hazırlama için yetersiz zaman

Bazı şirketler bu sorunları çözecek kaynaklara sahip olmayabilir. Burada yarı denetimli öğrenmeden bahsedebiliriz. Elimizde az miktarda etiketlenmiş veri ve çok miktarda etiketlenmemiş veri varsa, yarı denetimli bir makine öğrenmesi problemi oluşturabilir ve bunu farklı yarı denetimli algoritmalarla çözebiliriz.

Yarı Denetimli Öğrenme Uygulamalarına göz atalım :

  • Konuşma Analizi İçin

Bir çağrı merkezinde kaydedilen konuşmaları ele alalım. Arayanların ruh halleri ve özellikleri birbirinden çok farklıdır. Bazıları kadın, bazıları erkek. Kimi İstanbul’dan, kimi Diyarbakır’dan arıyor. Bazıları kalite sorunları için, bazıları ise bilgi için çağrıda bulunur.

Bazı insanlar şaşkın, bazıları kızgın. Bu arama türleri için modeller geliştirebilmek için önceden etiketlenmiş çok sayıda vakaya sahip olmak gerekir. Ses dosyalarını etiketlemek zor bir iştir. Çok fazla insan müdahalesi gerektirir. Vakaları etiketlemek pahalı, zaman alıcı veya hiç bilinmediği için yarı denetimli öğrenme algoritmalarını kullanmak çok faydalı olabilir. Bir sınıflandırma modeli oluşturma, yani etiketlenmemiş verileri kullanma yaklaşımı; Kendi kendine eğitim, kendi kendine etiketleme veya karar odaklı öğrenme modeli olarak da bilinen kendi kendine öğrenme tekniği. En çok kullanılan yöntemlerden biridir. İlk adım, birkaç etiketli veri içeren bir sınıflandırıcı öğrenmektir. İkinci olarak, sınıflandırıcı etiketlenmemiş verileri tahmin eder ve eğitim setine daha yüksek spesifikasyonlu güvenilirlik tahminleri eklenir.

Son olarak, sınıflandırıcı yeni eğitim seti ile yeniden eğitilir. Bu işlem eğitim setine yeni veri eklemeye gerek kalmayana kadar tekrarlanır.

  • İnternet İçeriği Sınıflandırması İçin

Tüm web sayfalarını etiketlemek sıkıcıdır. Google arama algoritması, sorguladığımızda öğrenmek istediğimiz konuyla web sayfasının alaka düzeyini sıralamak için Yarı Denetimli öğrenmeyi kullanır. Etiketlenen sayfaların sayısı az ve etiketlenmemiş sayfaların sayısı çoktur. Etiketlenmemiş sayfaları etiketli sayfalar olarak sınıflandırmak daha uygun maliyetlidir.

  • Protein Dizi Sınıflandırması İçin

DNA zincirlerinin boyutu çok büyüktür. Biyoloji alanında bu ve benzeri konularda yarı denetimli öğrenmenin kullanılması fikri üzerine çalışmalar devam etmektedir.

  • Müşteri Davranış Modellemesi İçin

Müşteri İlişkileri Yönetimi ekipleri, müşterilerle etkileşim kurmak ve şirket karlarını artırmak için veri madenciliği yöntemleriyle çalışır. Müşteriyle ilgili DWH verilerini yönetmek ve analiz etmek için yarı denetimli öğrenme tekniği kullanılır. Yarı denetimli öğrenmenin kullanılmasının amacı, yalnızca etiketlenmiş eğitim verilerini değil, aynı zamanda etiketlenmemiş verilerden gelen yapısal bilgileri de kullanmaktır. Proje modeli, bilinmeyen bir müşterinin (potansiyel bir müşteri olabilir) hangi kategoride olduğunu tahmin etmek için bir geri yayılım algoritması (çok katmanlı bir algılayıcı ile) tarafından eğitilmiş bir besleyici sinir ağı aracılığıyla bir modeldir.

Yarı Denetimli Öğrenme Projesi Önerisi

Küçük miktarlarda eğitim verisi için model doğruluğunda önemli bir gelişme sağlayabildiği için tıbbi görüntüler için idealdir. Örneğin: bir radyolog, tümörlerde veya diğer hastalıklarda bir tarama alt kümesini etiketleyebilir. Böylece makine, hangi hastaların daha fazla tıbbi desteğe ihtiyacı olduğunu daha doğru bir şekilde tahmin edebilir.

Hiçbir şey mükemmel değildir : Yarı Denetimli Öğrenme

Her başarının bir sınırı vardır. Etiketlenen verilerin tamamen doğru etiketlenip etiketlenmediği kesin olarak bilinmemektedir. Ek olarak, Yarı Denetimli Öğrenme, büyük miktarda etiketlenmemiş veriden yararlanır. Bunların geçici olarak etiketlenmesi tamamen güvenilir olmayabilir.

Yarı denetimli öğrenme yazı dizimiz devam edecek, Sağlıkla kalın!

Düzeltmeleri ve önerileri için Meltem Yondem, Phd Hocama teşekkürler

--

--