DevelopHyun

Data Science & Algorith with Computer Science

DSSD[1] DSSD: Deconvolutional Single Shot Detector(2017) - Review

28 Sep 2018 » deeplearning, cnn, image-detection, dssd, paperreview

1. Abstract

  • DSSD = ResNet + SSD + deconvolutional layer

2. Introduction

  • 논문에서 제시한 detection의 성능을 올리는 법
    • better feature network
    • more context
    • improving the spatial resolution

  • VGGnet
  • ResNet
  • SPPnet
  • Fast R-CNN, Faster R-CNN
  • RFCN
  • YOLO

4. Deconvolutional Single Shot Detection(DSSD) model

fig1

4.0 SSD

  1. base network을 통해 feature 추출
  2. base network를 기반으로 convolution layer을 통해 다양한 해상도에서 feature map 추출
  3. 다양한 크기의 feature map에서 class score와 bounding box offset 예측
  4. NMS

4.1 Using Residual-101 in place of VGG

  • base network를 VGG 대신 ResNet 사용

4.1.1 Prediction module

fig2

  • SSD에서는 feeture map에서 바로 bounding box offset과 class score를 예측했지만, DSSD에서는 각각의 feature map마다 별도의 prediction module을 사용하여 bounding box offset과 class score를 예측

4.1.2 Deconvolutional SSD

  • SSD layer 이후에 deconvolution layer 추가
    • SSD와 대칭적인 구조
  • deconvolution layer
    • feature map의 resolution 증가
    • skip connection을 통해 가져온 SSD의 layer를 이용

4.1.3 Deconvolution Module

fig3

  • skip connection을 이용하여 SSD의 feature map의 정보와 deconvolution layer의 feature map의 정보를 합쳐주는 module
  • 두 개의 feature map을 각각 처리해준 후, element-wise product를 통해 정보를 합침

4.1.4 Training

table1

  • ground truth bounding box와 IoU 값이 threshold(0.5) 이상인 predicted anchor box(default box)만 학습에 사용
  • IoU 값이 threshold(0.5) 이하인 box에 대해서는 negative로 배정하여 positive:negative = 1:3 의 비율로 sampling
    • negative box가 너무 많기 때문에 학습에 영향을 주기 때문
  • SSD에서 했던 방식으로 data augmentation
  • ground truth bounding box를 clustering하여 anchor box 설정
    • box area의 square root를 feature로 사용
    • K-means

5. Experiments

table2

  • Base Network
    • ResNet-101를 변형하여 사용

5.1 PASCAL VOC 2007

table3

5.1.1 Ablation Study on VOC2007

table4

5.2 PASCAL VOC 2012

table5

5.3 COCO

table6

5.4 Inference Time

table7

  • batch normalization을 제거하고 다른 normalize를 해줬을 때 더 빠른 속도를 보여줌
  • 속도를 빠르게 하기 위하여 weight와 bias를 조정
  • SSD보다는 느림

5.5 Visualization

fig4


6. Conclusion

  • DSSD는 deconvolution layer가 더해져 feature context가 증가하여 좋은 성능을 보인다.

7. Reference