[논문 요약47] OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

티스토리 뷰

Paper Review

[논문 요약47] OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

Arc Lab. 2018. 11. 8. 10:11

[업데이트 2019.03.08 15:1]

47번째 요약할 논문은 "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks" (https://arxiv.org/pdf/1312.6229) 입니다.

Overfeat은 고해상도 이미지로부터 만들어진 fully connected layer를 1x1 convolutional layer로 변환함으로써 이미지 인식 CNN을 "sliding window" detector로 형태로 만듭니다. 변환 이후 그리드 형태의 최종 특징 벡터가 생성됩니다. OverFeat의 경우 R-CNN과 다르게 One Stage Detector로 R-CNN처럼 Object Proposal을 생성하지 않고, single forward pass 방식으로 CNN 모델을 학습후, Multi-scale evaluation을 통해 사물을 검출합니다.

OverFeat의 경우 Object Detection에 초점을 맞춘 딥러닝 모델로 multi-task loss를 정의하며(분류 및 경계상자 loss를 동시에 최소화), 네트워크 모델에 보통 사용되는 FC(Fully Connected) 레이어를 1x1 Convolution으로 개념을 바꿔 생각함으로써, 입력되는 이미지 사이즈에 관계없이 CNN을 수행 할 수 있게 됩니다. 아래의 이미지에서 볼 수 있듯이 FC 레이어를 1x1 Convolution으로 바꾸게 되면, 입력 사이즈가 변경 되더라도 Convolution을 수행할 수 있게됩니다.

아래와 같이 입력 이미지의 스케일을 다르게 하여(0.5, 1, 2, 4) 추론을 하게 되며, Voting 방식으로 경계상자와 분류를 최종적으로 수행하게 됩니다. 스케일에 따라 검출된 오브젝트가 사라지거나 다시 검출될 수 있수도 있습니다. 이렇게 다른 스케일의 입력 이미지에 대해 추론이 가능한 것은 위에서 이야기한 1x1 Convolution을 적용하였기 때문입니다.