1. Abstract
- residual network가 왜 효과적인지, 어떻게 하면 더 개선할 수 있는지에 관한 논문
- residual block을 사용하면 vanishing gradient 문제가 해결됨을 수식으로 증명
- 오차역을 어느 block으로든 잘 전달할 수 있게됨
2. Introduction
- general form of residual unit
- =
- =
- = identity mapping, = ReLU, = residual function
- shortcut path에는 아무것도 해주지 않는 것이 제일 효과적(proposed residual unit)
- f를 identity mapping으로 만들어주기 위하여, ‘pre-activataion’ 방식으로 weight layer 재구성
3. Analysis of Deep Residual Network
- proposed residual unit의 경우 = identity mapping을 의미
- = =
- 일 경우에 모든 은 로 표현 가능함
- 따라서, chain rule 을 통하여 back propagation을 살펴 볼 수 있음
- =
- =
- =
- 위의 식을 살펴보면, 가 아무리 작아도 에서의 gradient가 로 전달됨
- vanishing gradient가 발생하지 않음
4. On the Importance of Identity Skip Connections
- shortcut connection에 scalar를 곱해주는 경우
- 가 됨
- 인 경우에는 값이 너무 커지고, 값이 너무 작아짐
- shortcut connection은 건드리지 않는 것이 좋음
- 다른 여러가지 architecture 시도
4.1 Experiments on skip connection
- shortcut path는 clear하게 구성하는 것이 좋음
5. On the Usage of Activation Functions
- activation function과 normalization, convolution의 위치를 바꿔가며 실험
- activation을 취해주지 않아야 제대로 propagated 됨
- BN과 ReLU를 함께 사용하는 것이 성능이 좋음
- training error는 기존 모델보다 높지만, 일반화가 잘 되어서 test error는 낮음
5.1 Experiments on Activation
- activation 및 normalization의 경우도 convolution layer에서만 처리해주는 것이 좋음