티스토리 뷰

[업데이트 2018.10.12 13:14] 


 44번째 요약할 논문은 "A CLOSER LOOK: SMALL OBJECT DETECTION IN FASTER R-CNN"(https://ieeexplore.ieee.org/abstract/document/8019550) 입니다. 본 논문의 Introduction에 대한 내용 요약입니다. 

1. Introduction 요약
현재 Fast(er) R-CNN과 같은 object detection 파이프라인의 경우 deep neural network 기반으로 구성되어 있습니다. 비선형 활성 함수 적용 등 convolution을 여러번 거치면서 점점 더 추상적인 특징을 추출하게 됩니다. 이러한 convolution 과정중에 max-pooling을 수행하면서 feature map이 다운 샘플링되는게 일반적입니다. 다운샘플링의 경우 다음과 같이 3가지 이점이 있습니다. 

(a) 모델에 적용시 computational complexity를 줄일 수 있습니다. 
(b) invariance한 feature representation을 얻을 수 있습니다. 
(c) neuron들의 receptive field를 증가 시킬 수 있습니다. 

그러나 이와 반대로 원본 이미지 대비 낮은 해상도의 feature map을 가지게 되며, 원본 이미지에서 feature와 관련된 위치 파악이 어렵게 됩니다. 이러한 잠재적인 단점이 있음에도 image classification 및 object detection 분야에서 매우 성공적이었습니다. 또한 대부분의 응용 프로그램에서 pixel-accurate localization은 중요한 부분을 차지하지 않습니다.

본 논문에서는 회사 로고 인식 문제에 대해 feature 계층 구조의 여러 수준에서 feature representation의 적합성을 검토합니다. 회사 로고의 경우 사진이 찍힐 때 의도적으로 로고를 찍는 경우가 드물고 우연히 같이 찍히게 됩니다. 그래서 대부분 원본 이미지에서 차지하는 사이즈가 작은 경우가 대부분입니다. 

IOU(Intersection Of Union)을 통해 localization의 품질을 평가하는 것이 일반적인데, 회사 로고처럼 작은 이미지 인스턴스의 경우 검출시 더 큰 영향을 받게 됩니다. 이러한 문제를 해결하기 위한 가장 쉬운 방법은 업샘플링을 수행하는 것인데, 이렇게 되는 경우 기존의 computational complexity를 줄이지 못하게 되는 이슈가 발생합니다. 

본 논문에서는 3가지를 제안하고 있습니다. 

1. proposal stage(object proposal 생성)에서 small object에 대해 heuristic한 방법으로 적절한 anchor scale을 찾아냅니다. 
2. proposal과 classification stage에서 object size와 feature map간의 어떤 연관성이 있는지 상세한 실험을 진행합니다. 레이어가 깊어질수록 이전 레이어보다 더 high level의 feature를 추출하게 됩니다. 본 실험을 통해 알게 된 사실은 small object의 경우 레이어가 얕을 수록 더 좋은 성능을 보여준다는 것입니다. 
3. Faster R-CNN을 기반으로 Flickr Logos 데이터셋을 사용하여 관측 결과를 검증합니다. 

아래의 Fig3은 object size와 anchor size간의 상관관계를 RPN Performance(MABO)를 통해 보여주고 있습니다.

 * 참고 


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함