티스토리 뷰

[업데이트 2018.10.12 14:07] 



1. Introduction 요약 
Small object detection의 경우 제한된 해상도와 정보로 인해 확실히 도전적인 과제임에는 틀림없습니다. 
(Figure 1, 인식이 어려운 작은 크기의 대상들)

종래에 contextual information 사용하여 성능 향상을 시도한 사례가 있습니다. (아래의 논문) 

- R-cnn for small object detection
- Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks
- HyperNet: Towards accurate region proposal generation and joint object detection
- DSSD: Deconvolutional single shot detector

그 외에 방법으로는 업샘플링을 통한 방법이 존재하지만, 컴퓨팅 비용이 증가하게 됩니다.

실시간 object detection의 경우 대부분의 연구가 region-based object detection architecture를 기반으로 이루어졌는데(R-CNN, SPPnet, Fast R-CNN, Faster R-CNN), 빠르게 small object를 인식하기에는 어려움이 있습니다. 실시간 object detection을 위해 Single Shot Multibox Detector (SSD)를 사용하여 속도 향상을 이룰수 있게 되었습니다. Small object detection 성능을 높이기 위해 SSD를 기반으로 하 Deconvolutional Single Shot Detector (DSSD)가 발표 되기도 하였습니다. DSSD의 경우 accuracy를 높이다보니 속도가 떨어지는 accuracy vs speed trade-off가 존재하였습니다.

본 논문에서는 small object를 빠르게 detection하는 것을 목표로 합니다. 이러한 목표를 달성하기 위해 base architecture로 SSD를 사용하며, multi-level feature fusion 방법(Figure 3)을 통해 contextual information을 base architecture인 SSD에 추가합니다. 해당 방법의 경우 concatenation 모듈과 element-sum 모듈 2가지로 구성됩니다.


위의 Figure 3에서 알수 있듯이 small object인 boat를 인식하기에는 Conv4_3이 receptive field의 영역이 작고, 배경 노이즈가 덜한 것에 반해 Conv5_3, Fc6의 경우 boat 주변 배경 노이즈가 심한 것을 알 수 있습니다. 따라서 본 논문에서는 Conv4_3을 선택하여 적용하여 small object에 대한 인식률을 높이는 방법을 제안하고 있습니다.


concatenation 모듈은 1x1 convolution layer를 통해 target 및 contextual information의 weight 학습을 위해 사용되며, 불필요한 배경의 노이즈에 대한 추론을 최소화하게 됩니다. element-sum 모듈은 multi-level feature로부터 얻은 두 feature map간에 element-wise summation을 통해 context의 효율성을 높일 수 있습니다.


* 참고 


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함