R-CNN, Fast R-CNN ve Faster R-CNN Mimarileri

Elif Beyza Ozkan
3 min readSep 18, 2022

--

Derin Öğrenmede Bilgisayarlı Görü” başlıklı yazımda yüz tanıma, görüntü sınıflandırma ve nesne tespiti gibi birçok alanda kullanılan CNN (Convolution Neural Network) algoritmasından bahsetmiştik.

CNN, evrensel olarak kullanılan derin öğrenme modeli türüdür, ancak bir görselde aynı anda sadece bir nesne tespit edebilmesi olumsuz yanlarından biridir.

Bu nedenle görüntü işlemede bu sorunu çözmek için araştırmacılar R-CNN derin nesne tanıma mimarilerini geliştirmişlerdir.

R-CNN (Regions with CNN)

R-CNN mimarisi, görüntülerde bulunan objelere ait sınıfları ve bu objelere ait bounding box’ları (sınırlayıcı kutular) tespit etmek için kullanılmaktadır.

R-CNN, iki aşamalı bir nesne algılama algoritmasıdır.

  • İlk aşama, selective search (seçici arama) ile görselde obje olmaya aday feature’lar belirlenmesidir.
  • İkinci aşama ise yaklaşık 2000 region (bölge) belirlendikten sonra her birinin ayrı ayrı bir CNN modeline girdi olarak girmesi ve sınıflarının (SVM modellerinde), bounding box’larının (regresyon modellerinde) tahmin edilmesidir.
R-CNN mimarisi (Kaynak: https://www.mathworks.com/help/vision/ug/getting-started-with-r-cnn-fast-r-cnn-and-faster-r-cnn.html)

Selective Search (Seçici Arama): YOLO — You Only Look Once” başlıklı yazımda detaylıca bahsettiğim gibi Non-Max Supression yöntemi yardımıyla doğru bounding box’ları belirlemek için kullanılan bir metottur.

İlk olarak ufak bölgeler belirlenmekte, ardından birbirine benzer olan iki bölge birleştirilip daha büyük yeni bölge elde edilmektedir. Bu işlem tekrarlı olarak devam ederek, görselde bulunan objelerin sınıflandırılması sağlanmaktadır.

Selective Search (Kaynak: https://teknoloji.org/nesne-tanima-algoritmalari-r-cnn-fast-r-cnn-ve-faster-r-cnn-nedir/ )

R-CNN mimarisinin eğitim süresi yaklaşık olarak 84 saat ve tahmin süre yaklaşık olarak 47 saniye sürmektedir. Bu kadar uzun süre gerektirmesinin sebebi her görüntünün 2000 bölge için, 2000 farklı CNN ağı kullanılmasıdır. Ayrıca, çok zaman almasına ek olarak, maliyetinin yüksek olması ve çok fazla disk alanı gerektirmesi R-CNN’in diğer olumsuz yönleridir.

Fast R-CNN

R-CNN mimarisinde 2000 farklı region (bölge) belirlendikten sonra bu 2000 bölge için 2000 farklı CNN ağı kullanılmasının eğitim süresinin çok fazla uzamasına sebep olduğundan bahsetmiştik. Fast R-CNN mimarisi bu duruma çözüm olması için geliştirilmiştir.

Fast R-CNN mimarisi 2000 CNN modelinden kurtulup sadece tek bir model kullanmaktadır. Bu aynı zamanda disk alanından da tasarrufu sağlamaktadır.

Ayrıca, R-CNN’de kullanılan CNN, SVM ve Regressor birleştirilerek perfomans anlamında da büyük gelişme sağlanmıştır.

Fast R-CNN mimarisi (Kaynak: https://teknoloji.org/nesne-tanima-algoritmalari-r-cnn-fast-r-cnn-ve-faster-r-cnn-nedir/ )

Fast R-CNN mimarisinin eğitim süresi yaklaşık olarak 8.75 saat ve tahmin süresi yaklaşık olarak 2.3 saniye sürmektedir.

Faster R-CNN

Faster R-CNN, Fast R-CNN’e kıyasla maliyet açısından yük olan selective search yerine daha kullanışlı olan Region Proposal Network (RPN) kullanmaktadır.

Faster R-CNN mimarisi iki temel aşamadan oluşmaktadır.

  • Region Proposal Network (RPN): İlk aşama olan RPN, bölge önermeye yarayan derin, evrişimli bir sinir ağıdır. Girdi olarak herhangi bir boyutta girdiyi almakta ve obje skoruna göre bir dizi nesnelere ait olabilecek dikdörtgen teklifi ortaya çıkarmaktadır. Bu öneriyi, evrişimli katman tarafından oluşturulan feature map üzerinde küçük bir ağı kaydırarak yapmaktadır.
  • Fast R-CNN: RPN tarafından üretilen hesaplamaların Fast R-CNN mimarisine sokulmakta ve bir sınıflandırıcı ile objenin sınıfı, regressor ile de bounding box’un tahmin edilmektedir
Faster R-CNN mimarisi (Kaynak: https://teknoloji.org/nesne-tanima-algoritmalari-r-cnn-fast-r-cnn-ve-faster-r-cnn-nedir/)

Faster R-CNN mimarisinin eğitim süresi yaklaşık olarak 8.75 saat ve tahmin süresi yaklaşık olarak 0.3 saniye sürmektedir.

Temel hatlarıyla R-CNN, Fast R-CNN ve Faster R-CNN mimarilerinden bahsettik. İncelediğimiz mimarilerin özelliklerini içeren özet niteliğindeki tablo ile yazımızı sonlandıralım.

Kaynaklar

--

--

Elif Beyza Ozkan

I’m an Electrical Electronics Engineering Student at Osmangazi University. You can reach me on linkedin.com/in/elifbeyzaozkan and elifbeyzaozkan57@gmail.com