Bu model insanların video izlerken nereye odaklandıklarını tahmin edebiliyor!

Fotoğraf: CLIPAREA.com/Folotia

Bir yere baktığımızda, görme sistemimizin önemli bir parçası olan dikkat mekanizmaları devreye girer ve bakışlarımızı belirgin bölgelere yönlendirir. Böylece ilgisiz veri bir süzgeçten geçirilmiş olur ve dikkatimizi daha anlamlı ve daha çok bilgi içeren bölgelere odaklayabiliriz. Bu yetiyi taklit eden görsel belirginlik (visual saliency) modellerinin geliştirilmesi, sinirbilimciler ve bilgisayarla görme araştırmacıları tarafından yaklaşık 80 yıldan fazla bir süredir üzerinde çalışılan bir konu. Ancak son zamanlarda derin öğrenme sayesinde, önerilen modellerin tahmin başarılarında önemli bir iyileşme sağlanmış durumda.

Görsel belirginlik tahmini üzerine bölümümüzdeki araştırma laboratuvarlarından Hacettepe Üniversitesi Bilgisayarla Görme Laboratuvarı (HUCVL)’nda ciddi araştırmalar yürütülmekte. Şimdi Amazon şirketinde Yazılım Geliştirme Mühendisi olarak çalışan, mezunlarımızdan Çağdaş Bak’ın yüksek lisans tezini de oluşturan bir çalışma, bunların en güncel örneklerinden biri. Tez danışmanları olan Doç. Dr. Erkut Erdem ile Doç. Dr. Aykut Erdem’in yanı sıra HUCVL’de doktorasına devam etmekte olan Aysun Koçak’ın da katkı verdiği ve derin öğrenme tabanlı yeni bir belirginlik modelinin önerildiği bu çalışma geçtiğimiz yıl IEEE Transactions on Multimedia dergisinde basıldı.

İnsan görsel korteksinin, sırasıyla görünüm ve hareket bilgisini işlemek için uzmanlaşmış iki ayrı akıştan, yani ventral (“ne” yolu) ve dorsal (“nerede” yolu) akışlardan oluştuğu teorisinden hareketle; biyolojiden ilham alınarak tasarlanan bu dinamik belirginlik modeli, video karelerini işlerken uzamsal ve zamansal bilgiyi bütünleştiren iki akışlı bir evrişimsel sinir ağı (two-stream convolutional neural network) mimarisini kullanıyor. Türünün derin öğrenme kullanan ilk örneklerinden birisi olan bu hesaplamalı model, gerçekleştirdiği uçtan uca öğrenme sayesinde çok daha etkin öznitelikler öğrendiğinden dolayı literatürde mevcut olan modellere kıyasla çok daha başarılı tahminler yapabiliyor.

Videoların üzerine bindirilen ısı haritaları insanların videolarda baktıkları tahmin edilen yerleri göstermektedir. Burada kırmızı bölgeler bu olasılığın en yüksek olduğu alanlardır.

İlgili yayın:
Spatio-Temporal Saliency Networks for Dynamic Saliency Prediction.
Cagdas Bak, Aysun Koçak, Erkut Erdem, and Aykut Erdem.
IEEE Transactions on Multimedia, Vol. 20, No. 7, pp. 1688-1698, July 2018.

--

--