Her Örnek Eşit Değildir? Daha Başarılı Modellerin Eğitilebilmesi için Büyük Görsel Verideki Tanımlayıcı Örneklerin Tespiti

Günümüzde İnternet üzerinde çok fazla sayıda görüntü ve video verisi bulunuyor. Kullanıcıların farklı içeriklere sahip çok sayıdaki veriyi yüklemesi nedeniyle veri miktarı ve çeşitliliği gün geçtikte daha da büyük oranlarda artmakta. Öyle ki, en yaygın video paylaşım platformu olan YouTube’a her dakika 300 saatlik video yükleniyor. Dolayısıyla, kullanıcıların büyük sayıda veri içerisinden istedikleri veriye ulaşmaları gittikçe zor bir hale geliyor.

Verilerin ait olduğu kategori bilgisinin sistemler tarafından öğrenilmesi, son yıllarda derin sinir ağları tabanlı yapay öğrenme yöntemleri ile gerçekleştirilmekte ve sonuçlar gün geçtikçe daha fazla tatmin edici olmaya başlamış durumda.

“Large-scale Video Classification with Convolutional Neural Networks” bildirisindeki yöntemin elde ettiği sınıflandırma sonuçları.

Ancak, bu yöntemlerin uygulanabilmesi için çok sayıda etiketli verinin eğitim aşamasında kullanılması gerekiyor. YouTube veya Google üzerinden görüntüleri tanımlayıcı bazı anahtar kelimeler kullanarak arama sonuçlarına ulaşmak mümkün ve bu veriler çok sayıda veri ihtiyacını karşılayabiliyor. Öte yandan, çok çeşitlilikteki büyük veri hala birçok zorluğu da beraberinde getirmekte. İnternet verisi; verilerin birden fazla kategoriye ait olabilmesi, “arka plan” olarak tabir edilen ve hiçbir kategoriye ait olmayan görüntüleri/video karelerini içerebilmesi, yüklenen kullanıcı tarafından açıklayıcı olmayan anahtar kelimeler ile etiketlenmiş olması gibi öğrenme sürecini olumsuz yönde etkileyebilecek zorluklara sahip. Örneğin, aşağıdaki görselde basketbol videolarında bulunan karelere bakıldığında; gerçekten basketbol hareketi içeren maç sahneleri dışında seyircilerin, röportajın veya şovların olduğu sahneler de bulunuyor. Belirtilen zorluklar sebebiyle, bu veriyi eğitim kümesi olarak doğrudan kullanan modeller yeterince başarılı olamıyor.

“basketbol” kategorisi için örnek videolar.

Hacettepe Üniversitesi Bilgisayar Mühendisliği öğretim üyesi Prof. Dr. Pınar Duygulu ve doktora öğrencisi Özge Yalçınkaya TÜBİTAK tarafından desteklenen bir proje kapsamında bu probleme çözüm üretmeye çalışıyor. Önerilen yöntem, İnternet’den toplanmış video veya görüntü verileri üzerinde, otomatik olarak belirtilen kategoriler için en tanımlayıcı verilerin seçilmesini, ilgisiz olan ve öğrenme başarısını düşürebilecek verilerin ise elenmesini sağlıyor. Sonrasında, öğrenme asıl olarak büyük veriden sadece tanımlayıcı olarak seçilen örnekler üzerinden yapılıyor. Böylece, İnternet üzerindeki büyük verinin daha faydalı bir şekilde işlenmesi, erişim sistemlerinin tüm internet verisi üzerinden geliştirilebilmesi ve öğrenilen modellerin başarımının arttırılması sağlanıyor.

Önerilen yöntemin video verisi üzerindeki bazı örnek sonuçları aşağıda gösteriliyor. Görülebileceği gibi, belirtilen kategori için anlamsız olabilecek ve yapay zeka modelinin ilgili kategori ile bağdaştıramayacağı örnekler elenirken, en tanımlayıcı örnekler öğrenme aşaması için seçilebilmekte.

Önerilen yöntemin “okçuluk, teker kontrolü ve platform dalışı” kategorileri için tanımlayıcı olarak seçtiği ve elediği videolar.

Önerilen yöntem, veri türünden bağımsız olarak çalışabiliyor. Videoların yanı sıra, görüntüler için de yapılan deneyler sonucunda, sadece seçilen tanımlayıcı verilerin öğrenme aşamasında kullanılmasıyla, yapay öğrenme tabanlı modellerin başarımları arttırılabiliyor.

Önerilen yöntemin “şifon”, “sweater” ve “hoodie” kategorileri için tanımlayıcı olarak seçtiği ve elediği görüntüler.

--

--