1. Abstract
- DSSD = ResNet + SSD + deconvolutional layer
2. Introduction
- 논문에서 제시한 detection의 성능을 올리는 법
- better feature network
- more context
- improving the spatial resolution
3. Related Work
- VGGnet
- ResNet
- SPPnet
- Fast R-CNN, Faster R-CNN
- RFCN
- YOLO
4. Deconvolutional Single Shot Detection(DSSD) model
4.0 SSD
- base network을 통해 feature 추출
- base network를 기반으로 convolution layer을 통해 다양한 해상도에서 feature map 추출
- 다양한 크기의 feature map에서 class score와 bounding box offset 예측
- NMS
4.1 Using Residual-101 in place of VGG
- base network를 VGG 대신 ResNet 사용
4.1.1 Prediction module
- SSD에서는 feeture map에서 바로 bounding box offset과 class score를 예측했지만, DSSD에서는 각각의 feature map마다 별도의 prediction module을 사용하여 bounding box offset과 class score를 예측
4.1.2 Deconvolutional SSD
- SSD layer 이후에 deconvolution layer 추가
- SSD와 대칭적인 구조
- deconvolution layer
- feature map의 resolution 증가
- skip connection을 통해 가져온 SSD의 layer를 이용
4.1.3 Deconvolution Module
- skip connection을 이용하여 SSD의 feature map의 정보와 deconvolution layer의 feature map의 정보를 합쳐주는 module
- 두 개의 feature map을 각각 처리해준 후, element-wise product를 통해 정보를 합침
4.1.4 Training
- ground truth bounding box와 IoU 값이 threshold(0.5) 이상인 predicted anchor box(default box)만 학습에 사용
- IoU 값이 threshold(0.5) 이하인 box에 대해서는 negative로 배정하여 positive:negative = 1:3 의 비율로 sampling
- negative box가 너무 많기 때문에 학습에 영향을 주기 때문
- SSD에서 했던 방식으로 data augmentation
- ground truth bounding box를 clustering하여 anchor box 설정
- box area의 square root를 feature로 사용
- K-means
5. Experiments
- Base Network
- ResNet-101를 변형하여 사용
5.1 PASCAL VOC 2007
5.1.1 Ablation Study on VOC2007
5.2 PASCAL VOC 2012
5.3 COCO
5.4 Inference Time
- batch normalization을 제거하고 다른 normalize를 해줬을 때 더 빠른 속도를 보여줌
- 속도를 빠르게 하기 위하여 weight와 bias를 조정
- SSD보다는 느림
5.5 Visualization
6. Conclusion
- DSSD는 deconvolution layer가 더해져 feature context가 증가하여 좋은 성능을 보인다.