티스토리 뷰

[업데이트 2019.08.24 13:59]

 

1. 논문 

Nas-fpn: Learning scalable feature pyramid architecture for object detection

 

Golnaz Ghiasi, Tsung-Yi Lin, Quoc V. Le; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7036-7045

2019.06.16-20

 

2. 요약

- Here we aim to learn a better architecture of feature pyramid network for object detection. We adopt Neural Architecture Search and discover a new feature pyramid architecture in a novel scalable search space covering all cross-scale connections. 

- The discovered architecture, named NAS-FPN, consists of a combination of top-down and bottom-up connections to fuse features across scales.

- Our method is based on the RetinaNet framework [23] because it is simple and efficient. The RetinaNet framework has two main components: a backbone network (often state of-the-art image classification network) and a feature pyramid network (FPN). The goal of the proposed algorithm is to discover a better FPN architecture for RetinaNet. Figure 2 shows the RetinaNet architecture.

- Figure 2: RetinaNet with NAS-FPN. In our proposal, feature pyramid network is to be searched by a neural architecture search algorithm. The backbone model and the subnets for class and box predictions follow the original design in RetinaNet [23]. The architecture of FPN can be stacked N times for better accuracy.

 

- We propose merging cell, which is a fundamental building block of a FPN, to merge any two input feature layers into a output feature layer. In our implementation, each merging cell takes two input feature layers (could be from different scales), applies processing operations and then combines them to produce one output feature layer of a desired scale. A FPN consists of N different merging cells, where N is given during search. In a merging cell, all feature layers have the same number of filters. The process of constructing a merging cell is shown in Figure 3.

 

- The decisions of how to construct the merging cell are made by a controller RNN. The RNN controller selects any two candidate feature layers and a binary operation to combine them into a new feature layer, where all feature layers may have different resolution. Each merging cell has 4 prediction steps made by distinct softmax classifiers:

 

Step 1. Select a feature layer hi from candidates. 

Step 2. Select another feature layer hj from candidates without replacement. 

Step 3. Select the output feature resolution.

Step 4. Select a binary op to combine hi and hj selected in Step 1 and Step 2 and generate a feature layer with the resolution selected in Step 3.

 

- In step 4, we design two binary operationssum and global pooling, in our search space as shown in Figure 4. These two operations are chosen for their simplicity and efficiency. They do not add any extra trainable parameters. The sum operation is commonly used for combining features [22]. The design of global pooling operation is inspired by [20]. 

- We follow Pyramid Attention Networks [20] except removing convolution layers in the original design. The input feature layers are adjusted to the output resolution by nearest neighbor upsampling or max pooling if needed before applying the binary operation. The merged feature layer is always followed by a ReLU, a 3x3 convolution, and a batch normalization layer.

 

* 참고: Path Aggregation Network for Instance Segmentation, Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia; The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 8759-8768

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함