티스토리 뷰

[업데이트 2018.09.24 16:41] 


1. 베이스 논문 

[논문 요약 40] Traffic-sign detection and classification in the wild 

(http://arclab.tistory.com/205


2. 베이스 논문을 인용한 논문 

Detecting Small Signs from Large Images 

(https://ieeexplore.ieee.org/abstract/document/8102940


3. 주요 내용 요약 

3.1. 연구 내용 파악

- 무엇에 관한 연구인가?

Computer vision분야의 object detection에 대한 연구이며, 교통 표지판과 같은 매우 작은 크기의 사물 인식을 주제로 작성된 논문입니다. 본 논문에서 제안한 patch-level의 object detection을 위해 Small-Object-Sensitive-CNN (SOS-CNN) (SSD 기반) 검출 성능 향상 방법을 제안합니다. patch-level의 object detection 방법을 제안한 이유는 small object detecton을 위해 사용되는 데이터셋의 입력 이미지의 경우 사이즈가 크기 때문에 학습 시 GPU 메모리 사용에 제한이 발생하게 됩니다.(한번에 많은 데이터를 GPU메모리에 올려야 하나 입력 이미지 사이즈가 커서 어려움) 이러한 방법을 해결하기 위해 deep한 신경망 구조를 shallow하게 변경하거나 메모리 사용량을 줄이기 위해 입력 이미지를 다운 샘플링하게 되면, 검출 성능이 떨어지는 tradeoff가 발생하게 됩니다. 


- 주요 내용의 순서와 전체적인 구성

Abstract -> Introduction -> Related Work -> Methodology(제안된 방법) -> Experimental Results -> Conclusion and Future Work순으로 논문의 내용이 구성됩니다.


- Research Question

교통 표지판처럼 입력 이미지에서 매우 작은 크기의 사물 검출 시 존재하는 제약 사항에 대해 성능을 떨어트리지 않고 개선할 방법이 존재하는가?


<제약사항 존재>

- 입력 이미지 사이즈가 크기 때문에 GPU 메모리에 올려 학습시키기 어려운 점.

- GPU 메모리 사용량을 줄이기 위해 신경망 구조를 shallow하게 변경하거나 입력 이미지를 다운 샘플링하였을 때 검출 성능이 저하될 수 있는 점.

3.2. 연구 내용 해석

- 중요한 문장을 통해 저자가 제시하는 주요 명제 찾기

large images are broken into small patches as input to a Small-Object-Sensitive-CNN (SOS-CNN) modified from a Single Shot Multibox Detector (SSD) framework with a VGG-16 network as the base network to produce patch-level object detection results.


초록을 보면, 위와 같이 small object detection 문제를 SOS-CNN방법을 사용하여 GPU 메모리를 사용하고, 신경망 구조를 shallow하게 변경하지 않고 최종적으로 검출 성능을 높이는 것을 제안하고 있습니다. Single Shot Multibox Detector (SSD) 모델을 기반으로 SOS-CNN 방법을 제안하고 있습니다.


- 저자의 논증을 찾고 구성해보기

제안된 방법의 경우 크게 다음과 같은 단계(Figure 1)를 거쳐 최종 사물을 인식하는 프레임워크 구조를 가지고 있습니다. R-CNN, Fast R-CNN, Faster R-CNN과 같은 proposal-based 방법이 아닌, SSD, YOLO처럼 proposal-free 방법을 기반으로 프레임워크를 구성하고 있습니다. 크게 다음과 같이 3가지 방법을 통해 프레임워크를 구성합니다.


1) Multi-patch detection

학습시 VGG-16 network를 통해 입력 이미지를 처리하기에 GPU 메모리 사용에 있어서 제한이 있으므로, 이미지를 고정된 200x200 사이즈로 cropping하여 patch단위로 학습을 진행합니다.


2) Scale Invariant Approach

본 논문의 경우 작은 크기의 사물 인식에 초점을 두기 때문에, 반대로 큰 크기의 사물 인식이 안될 수 있어 scale invariance하도록 입력 이미지를 여러 사이즈로 나누어 patch를 추출 및 학습을 진행합니다.


3) SOS-CNN

VGG-16기반의 SSD 모델을 베이스로 하고 있고, layer들은 3x3 convolution으로 구성되어 있습니다. 최종 conv4_3 출력으로 부터 분류 및 bounding box regression을 수행합니다. 또한 bounding box regression을 위한 default box/aspect ratio 등은 Faster-RCNN, SSD에서 사용된 방법과 유사합니다.



- 저자가 풀어낸 문제와 풀지 못한 문제 구분/저자도 알고 있는지?
Since the proposed system employed a sliding window strategy, it is time consuming. In the future, we plan to make the system more efficient.


본 논문에서는 patch-level object detection 방법 사용을 위해 sliding window방법을 사용하는데, 해당 방법의 경우 처리 시간을 많이 소모하기 때문에 향후 연구로 처리 시간 성능 향상을 이야기하고 있습니다.


3.3. 연구 내용 비평

- 저자의 분석이나 설명이 불완전한 부분 제시
accuracy/recall에 대해 기존 방법들에 대한 결과 추가 필요(Faster R-CNN, YOLO등)


- 논리적이지 못한 부분 제시

N/A


- 저자가 잘못 알고 있거나 알지 못하는 부분 제시

N/A


* 참고

[1] https://ieeexplore.ieee.org/abstract/document/8102940

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함