Review Metode Objek Deteksi: DETR — End-to-End Object Detection with Transformers

Published in

Data Science Indonesia

5 min readOct 31, 2021

Telah dipublikasikan di ECCV 2020 oleh Nicolas Carion dkk dari Facebook AI

Umumnya, metode pendeteksian objek atau object detection membutuhkan proses tambahan untuk menghasilkan kotak pembatas objek atau bounding box, seperti region proposals, anchors, and windows centres. Kemudian kita mendapatkan label/class setiap kotak pembatas tersebut menggunakan proses klasifikasi gambar atau image classification. Namun, metode yang akan kita bahas saat ini tidak diperlukan lagi proses tambahan ini.

DEtection TRansformer (DETR)

“DEtection TRansformer” (DETR) [1] mendeteksi objek secara langsung dengan memanfaatkan CNN dengan model “transformer” dan menghapus beberapa komponen yang biasa dirancang secara manual seperti non-maximal suppression dan anchor. Kemudian DETR menerapkan Bipartite matching dan Hungarian Algorithm secara langsung antara objek prediksi dan ground truth. Ilustrasi arsitektur dari DETR ini dapat dilihat pada Gambar 1.

Gambar 1. DETR menggunakan *backbone dari* CNN konvensional untuk mempelajari representasi 2D dari gambar input. Kemudian fitur tersebut diratakan (*flatten)* dan ditambah dengan positional encoding sebelum meneruskannya ke enkoder transformator. Dekoder transformator kemudian mengambil sebagai masukan sejumlah kecil penyematan posisi yang dipelajari, yang kita sebut kueri objek, dan sebagai tambahan memperhatikan keluaran enkoder. Kami meneruskan setiap penyematan keluaran dekoder ke jaringan Feed Forward Network (FFN) yang memprediksi deteksi (kelas dan kotak pembatas) atau kelas “tanpa objek”. Sumber: [1]

Kelebihan DETR

DETR memiliki beberapa kekuatan dibandingkan dengan detektor objek lainnya. Tidak seperti metode-metode lainnya, DETR telah berhasil menerapkan pendekatan ujung ke ujung (end-to-end). Metode ujung ke ujung ini telah diimplementasikan dalam pemrosesan bahasa alami (natural language processing), segmentasi gambar, dan tugas pembelajaran mesin lainnya. Akibatnya, metode ini tumbuh secara signifikan karena kemudahannya dari pembelajaran ujung ke ujung. Dengan demikian, pendekatan pembelajaran ujung ke ujung memungkinkan pendeteksian objek bekerja dengan cara yang sederhana.

Penggunaan “Transformers” memungkinkan jaringan untuk menemukan inter-dependencies yang paling relevan antara piksel dalam suatu gambar sehingga akan bermanfaat untuk menangani objek duplikat. Akibatnya, metode DETR dapat menghilangkan parameter yang dirancang manual yaitu nms dan anchor untuk mengurangi kompleksitas jaringan. Selain itu, seperti yang dinyatakan didalam paper, DETR dapat mencapai kinerja yang baik pada objek besar.

Kelemahan DETR

Meskipun pendekatannya yang novel, DETR memiliki beberapa kelemahan. Sebagaimana dinyatakan dalam makalah, DETR memiliki kinerja yang lebih rendah dalam mendeteksi objek yang lebih kecil. Hal ini terjadi karena metode ini tidak menerapkan pendekatan multiskala seperti yang dilakukan oleh detektor objek lainnya. Tanpa multi-skala ini, objek-objek kecil tidak dapat dideteksi. Ilustrasi mengenai metode multi-skala dapat dilihat pada Gambar 2.

Gambar 2. Representasi visual dari metode multiskala. Pertama, kita menggunakan gambar asli yang ada di dalam dataset untuk proses pembelajaran. Kemudian perkecil gambar tersebut dan gambar ini digunakan untuk proses pembelajaran selanjutnya begitu seterusnya sampai pada level tertentu. Sumber: https://en.wikipedia.org/wiki/Pyramid_(image_processing)

Berdasarkan benchmark deteksi objek, DETR terbilang cukup kompleks dibandingkan metode lain. DETR membutuhkan lebih banyak waktu pelatihan untuk mendapatkan hasil yang konvergen daripada detektor objek lain seperti Faster R-CNN. Kemudian kompleksitas komputasi dan memori dari encoder transformator sangat tinggi karena perhitungan bobot kuadrat dengan jumlah piksel.

Terakhir, mengabaikan penggunaan non-maxima suppression dan anchor masih diperdebatkan. Dalam hal inferensi untuk pada tahap deployment, non-maxima surpression dan anchor masih relatif lebih cepat dari pada penggunaan Transformation. Para pengembang software mungkin akan berpikir dua kali untuk menggunakan metode DETR ini jika mereka masih membutuhkan lebih banyak waktu pelatihan dan memiliki kompleksitas tinggi. Oleh karena itu, perbaikan lain masih diperlukan untuk mengatasi masalah ini.

Terlepas dari kelemahannya, metode ini dapat menjadi terobosan yang dapat dipelajari oleh mesin secara end-to-end untuk tugas deteksi objek. Deteksi objek telah banyak digunakan dalam penelitian lain seperti deskripsi citra, pengawasan, dan banyak lagi. Membiarkan metode end-to-end untuk deteksi objek akan meningkatkan penelitian ini dan dapat memperoleh pendekatan yang relatif sederhana untuk masalah pembelajaran mesin lainnya.

Pengembangan Metode DETR

Dikarenakan metode end-to-end nya yang memiliki beberapa keunggulan namun memiliki kelemahan metode nya dalam segi performa, banyak peneiliti yang mulai mengembangkan metode novel ini untuk mengatasi kelemahan yang ada. Beberapa diantaranya ialah membuat metode DERT ini agar lebih cepat mencapai konvergen pada saat fase pelatihan atau training. Selain itu ada juga metode yang meningkatkan performa deteksi. Dan metode yang lain memanipulasi arsitekturnya sehingga memiliki keunggulan tersendiri.

Deformed-DETR [2] telah diusulkan untuk mengurangi kompleksitas DERT dengan pelatihan yang lebih rendah dengan memperkenalkan deformable attention module yang menggabungkan sparse spatial sampling dalam fitur multi-skala. Selain itu, pendekatan baru ini juga menggunakan parameter tambahan yaitu iterative bounding box refinement yang memungkinkan metode ini mencapai kinerja yang relatif baik daripada detektor objek baru-baru ini.

Gambar 3. Ilustrasi Deformed-DETR. Sumber: [2]

Lalu ada DETR dengan Spatially Modulated Co-Attention (DETR-SMCA) [3] dimana fitur dekoder yang ada sebelumnya diganti dengan SMCA dengan menggunakan metode regresi untuk membatasi respons attention namun dapat menghasilkan kotak pembatas yang semirip mungkin dengan metode sebelumnya.

Gambar 4. Ilustrasi Dekoder yang dipakai dengan Spatially Modulated Co-Attention

Selanjutnya Dynamic-DETR [4] mengganti fitur enkoder dan dekoder dari DETR sebelumnya. Enkoder yang dipakai adalah menggunakan dynamic encoder yang memperhatikan beberapa faktor antara lain scale importance, spatial importance, dan representation importance. Enkoder ini memiliki keunggulan untuk mendapatkan fitur penting dalam skala gambar yang kecil. Selanjutnya, metode ini memakai dynamic decoder yang menggantikan modul cross-attention pada metode DETR sebelumnya dengan ROI-based dynamic attention. Cross-attention yang dipakai sebelumnya memiliki kompleksitas kuadrat yang sangat tinggi. Dengan dekoder yang baru ini, tahap pelatihan akan dapat mencapat konvergensi lebih cepat.

Gambar 5. Ilustrasi Enkoder dan Dekoder yang digunakan pada Dynamic-DETR

Terakhir, terdapat metode yang mengejutkan yaitu Without Backbone DETR (WB-DETR) [5] . Metode ini menghapus backbone CNN yang ada pada metode DETR sebelumnya dan hanya menggunakan enkoder dan dekoder saja. Input yang masuk langsung dibuat semacam token lalu masuk ke proses LIE-T2T (local information enhancement tokens to token) yang digunakan untuk meningkatkan informasi internal yang ada pada token.