[Paper Review] An Effective Pipeline for a Real-world Clothes Retrieval System

일상 이미지 내 패션 상품을 검색하기 위한 효율적인 파이프라인 시스템 구조에 대한 논문 리뷰

한지승

Published in

HASHBOX

7 min readAug 2, 2020

Reference

Paper: https://arxiv.org/abs/2005.12739

이번 6월에 네이버에서 일상 이미지에서 패션상품을 검색하는 시스템 구조에 대한 논문을 발표하였다. 이 논문은 제안한 시스템 구조로 DeepFashion2 Clothes Retrieval 2020 challenge에서 2위를 수상하기도 했다. 필자 또한 관련 시스템 구조를 설계하고 구현하는 일을 했기 때문에 관심이 많이 가는 논문이라 리뷰를 하게 되었다.

기본적인 구성으로는 크게 Detection, Retrieval와 Post-processing으로 구성하고 있다. 이는 일상 이미지 내에서 패션 아이템을 찾아내는 Detection 요소와 이렇게 뽑아낸 패션 아이템 이미지를 임베딩을 하는 Retrieval이 있다. 마지막으로 이러한 요소들 간에 효율적인 성능을 달성하기 위해 Post-processing 요소가 있다.

우선 Detection 단계에서는 흔히 사용되는 Object detection 모델을 사용을 한다. 이 논문에서 제안하는 모델에서는 효과적인 패션 아이템 검출을 위해서 높은 성능을 보이는 Adaptive training sample selection (ATSS), Cascaded Mask RCNN, CenterNet, RetinaNet-R101-FPN, RetinaNet-X101-FPN의 모델을 동시에 사용하는 방식을 이용한다. 여러 모델을 사용함으로서 노이즈로 작용되는 요소나 잘못 검출된 바운딩박스 위치에 대해서 검색이 영향을 받지 않기 위해서이다. 이 때 여러 모델로부터 검출된 정보를 Weighted boxes fusion (WBF)라는 Post-processing을 통해 여러 바운딩박스를 잘 융합할 수 있게 돕는다.

다음으로 Retrieval 단계에서는 검출된 패션 아이템에서 검색을 위한 임베딩을 하는 단계로 ResNet152, SE-ResNeXt101과 같은 모델을 이용하였으며 2019년에 네이버에서 발표했던 프레임워크 Combination of multiple global descriptors (CGS)를 이용했다고 언급했다.

이와 관련해서 해당 논문을 자세히 읽은 뒤 리뷰를 하도록 하겠다.

이렇게 얻어낸 임베딩은 Feature Concatenation이라는 Post-processing을 통해서 검색 가능한 임베딩을 만들어서 성능을 올렸다고 한다.

무엇보다 해당 시스템을 직접 설계하고 구축을 하면서 어떤 점이 문제였고 개선해야할 점들을 많이 느꼈었다. 그러던 와중 이 논문을 접하면서 비슷한 부분도 있고 또 그러한 문제를 어떻게 해결했는지 알 수 있었던 논문이었다고 생각한다.

Abstract

실제 환경에서 큰 패션 데이터를 이용한 효과적인 패션 아이템 검색 시스템을 제안하고자 한다. 크게 Detection, Retrieval, Post-processing으로 나눠서 얘기할 수 있다.
이미지 내 노이즈라든지 바운딩박스가 잘못 잡힘으로써 생기는 문제들에 대해서 검색 성능이 좌우되지 않고 성능을 향상시기 위해서, 바운딩박스에 대해서 Weigted boxes fusion (WBF)과 Feature concatenation을 적용하였다.

Introduction

최근에, 패션 도메인은 컴퓨터 비전 분야에서 많은 주목을 끌어오고 있다. 이와 비슷하게 패션 아이템에 대한 온라인 쇼핑 수요도 세계 최대 산업 중 하나로 급부상하고 있다. 그렇기에 시각적 패션 검색은 매우 중요하고 온라인 고객들에게 최고의 쇼핑 검색 경험을 제공하는 것이 중요해졌다.
패션 검색 시스템은 Detection과 Retrieval라는 두가지 비전 태스크를 포함하고 이는 Deep convolutional nerual networks (DCNN)을 기반으로 한다.
검색 시스템의 성능을 더욱 더 향상 시키기 위해 Post-processing을 활용하였고, Weighted boxes fusion (WBF) 방법으로 여러 object detection 모델로부터 나온 바운딩 박스를 효과적으로 결합하고 유사성을 높이기 위해 Feature concatenation 기법도 사용한다.

Methodology

패션 검색 시스템에 구성요소를 Detection, Retrieval, Post-processing으로 나누어 설명한다.

Detection

5개의 State-of-the-art (SOTA) object detection 모델을 이용하여 잘 뽑힌 위치와 클래스 정보를 얻어 냅니다.
이 때 사용하는 모델은 Adaptive training sample selection (ATSS), Cascaded Mask RCNN, CenterNet, RetinaNet-R101-FPN, RetinalNet-X101-FPN이다.

Retrieval

검색된 패션 아이템을 기반으로 검색 작업을 수행하기 위해서 널리 사용되는 DCNN 모델을 사용하고, 하이퍼 파라미터나를 미세 조정하며 성능이 우수한 모델을 학습하도록 한다.
이 때 Combination of multiple global descriptors (CGS) 프레임워크를 이용하여 학습한다.

Post-processing

패션 검색 문제에서 성능을 극대화하기 위해서 몇가지 Post-processing 기법을 사용하고 실험했다.
그 중에서 Weighted boxes fusions (WBF)와 Feature concatenation을 사용하는 것이 성능향상에 도움이 되는 것을 확인하였다.
Weigted boxes fusions (WBF)는 검색는 object detection에서 모든 바운딩 박스 정보를 수집하고 결과에 대한 불일치를 수정하기 위해서 보다 정확한 예측을 제공하는 역할을 한다.
Feature concatenation은 각 모델에서 찾아낸 다른 feature들을 유의미하게 하기 위해 L2 Norm을 통해서 임베딩을 할 수 있도록 해서 검색에 대한 정확도를 올리는 역할을 한다.

Experiments

검색 파이프라인과 효과적인 Post-processing 방법을 결정하기 위한 실험에 대해서 설명한다.
데이터셋은 수 많은 패션 데이터셋 (DeepFashion2, DARN, Street2Shop, Zalando, MVC, MPV)가 존재하며, 본 논문에서 제안하는 모델은 DeepFashion2의 학습셋만을 사용하여 학습하였고 DeepFashion2 검증셋을 이용하여 성능 검증을 하였다.
많은 Post-processing 방법 중 Weighted boxes fusions (WBF)와 Feature concatenation이 효과를 보였고, PCA Whitening, QE and DBA, Re-ranking과 같은 방법은 오히려 잘 작동하지 않았다.

Conclusion

Detection과 Retrieval을 포함한 현실 패션 검색 시스템을 효과적으로 구성가능한 파이프라인을 제안하였다.
또한, 많은 Post-processing 방법론에 대한 실험을 진행하였고 결과를 확인하였다.
제안된 파이프라인으로 Acc@10이 0.854168으로 DeepFashion2 clothes retrieval challenge 2020에서 2위를 수상하였다.
제안한 파이프라인을 통해서 패션뿐만 아ㄴ라 가구, 미용 제품, 완구에 대한 검색 시스템에서도 일반화가 가능하다고 기대한다.