[논문 요약40] Traffic-sign detection and classification in the wild

티스토리 뷰

Paper Review

[논문 요약40] Traffic-sign detection and classification in the wild

Arc Lab. 2018. 9. 22. 20:39

[업데이트 2018.11.02 15:44]

사십번째 요약할 논문은 "Traffic-sign detection and classification in the wild" (https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Zhu_Traffic-Sign_Detection_and_CVPR_2016_paper.pdf) 입니다. 인트로에 대해 요약한 내용은 아래와 같습니다. 기존의 데이터셋의 경우 실제 환경에서 인식하려는 대상 사물의 사이즈가 아주 작은 경우에 대해 학습 및 테스트하기 적합하지 않은데, 본 논문에서는 실제 환경과 유사한 데이터셋을 제공합니다.

* Benchmark 테스트를 위해 환경 설정 및 학습, 평가 등에 대해 GitHub에 정리하였습니다.

> https://github.com/asyncbridge/tsinghua-tencent-100k

- 연구 배경

컴퓨터 비전의 궁극적인 목표는 주어진 이미지 또는 영상의 장면을 이해하는 것이며, 다양한 크기의 사물들을 검출하고 분류하는 것이 중요한 작업 중 하나입니다. 최근 딥러닝 기술은 이미지 분류나 음성 인식 등 많은 분야에서 우월한 성능을 보여주고 있습니다. 특히 심층 신경망 중 하나인 convolutional neural networks(CNNs)의 경우 이미지 분류, 지역화, 검출하는 것에 있어서 좋은 성능을 보여주고 있습니다.

- 당면 과제

보통 이미지 검출 성능을 측정하는 벤치마크로 크게 두가지가 널리 쓰이는데, PASCAL VOC와 ImageNet ILSVRC 벤치마크입니다. 두 데이터셋에서 각각의 이미지에서 검출을 목표로 하는 사물의 크기의 경우(bounding box) 각 이미지 대비 평균 20%정도의 영역을 차지하고 있습니다. 그러나 몇몇 작업의 경우 목표로 하는 사물의 크기가 아주 작은 부분을 차지하고 있습니다. 교통 표지판과 같은 작은 크기의 사물에 대해 이미지 검출과 분류 작업 및 평가를 해야 하는데 이전에는 이러한 벤치마크 방법이 없었습니다.

1) 실 세계의 교통 표지판의 크기는 일반적으로 이미지에서 차지 하는 비중이 아주 작고, 그 비중이 종종 1%보다 작습니다. 기존의 벤치마크(PASCAL VOC, ImageNet ILSVRC)의 경우 이미지에서 사물이 차지하는 비중이 커서 작은 크기의 교통 표지판을 검출하기에는 적합하지 않습니다.

2) 독일의 발표한 교통 표지판 GTSDB 벤치마크의 경우 4개의 주요 교통 표지 카테고리 중 하나만 인식하는 것을 목표로 하며, 네거티브 샘플이 존재 하지 않아 실 세계에서 교통 표지판을 검출하기에는 적합하지 않습니다.

- 연구 당위성

종래 연구에 사용된 벤치마크의 경우 교통 표지판처럼 작은 크기의 사물을 인식하는데, 학습 시킬 데이터셋으로 적합하지 않았습니다. 따라서 현실에서 접하게 되는 이미지 데이터에서 매우 작은 교통 표지판의 검출에 대한 학습과 평가를 할 수 있는 새로운 벤치마크를 만드는 것이 필요하게 되었습니다.

- 연구 문제

실 세계에서 교통 표지판처럼 매우 작은 크기의 사물 검출 시 성능을 떨어트리는 요소.

- 연구 중요성

본 논문에서 제안(Tsinghua-Tencent 100K benchmark)한 것처럼 다른 벤치마크에서도 작은 사물 검출 성능 향상을 위해 연구해볼 가치가 있습니다.

아래의 Figure 2와 같이 중국에서 표준 교통 표지판 가이드라인을 참조하고 있습니다. 실험 결과를 살펴보면 각 카테고리별로 학습 결과를 보여주고 있습니다.(Table 2)

본 논문에서는 사물의 검출과 분류를 동시에 하는데, 기존의 Fast R-CNN보다 성능이 좋은 것을 실험 결과로 보여주고 있습니다. 아래의 Table 3을 보면 작은 이미지(0,32]에 대해서도 좋은 성능을 보여주고 있습니다.

Table 1은 본 논문에서 제안한 네트워크 아키텍쳐입니다. bounding box, classification, segmentation을 동시에 end-to-end로 학습 가능한 구조입니다.

Figure 10은 기존 Fast R-CNN대비 accuracy/recall 성능에 대한 결과를 보여주는데, small object(0, 32]에 대해 월등히 좋은 성능을 보여주고 있습니다.

아래의 Table2는 교통 표지판 카테고리별 accuracy/recall 결과를 보여주고 있습니다.

본 논문의 경우는 데이터셋 뿐만 아니라 evaluation 방법에 대한 소스 코드까지 오픈소스로 제공하고 있어, 연구하기 편리하였습니다. Caffe deep learning framework를 사용하여 학습 및 테스트하였습니다. (참고 http://arclab.tistory.com/201)

* 참고

[1] https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Zhu_Traffic-Sign_Detection_and_CVPR_2016_paper.pdf

[2] http://cg.cs.tsinghua.edu.cn/traffic-sign/

[3] http://arclab.tistory.com/201

[4] https://github.com/asyncbridge/tsinghua-tencent-100k