DevelopHyun

Data Science & Algorith with Computer Science

Audio Style Transfer[1] Neural Style Transfer for Audio Spectrograms(2018) - Review

21 May 2018 » deeplearning, audio, style-transfer, alexnet, paperreview

1. Abstract

spectrogram에 CNN을 적용한 audio style transfer에 대한 연구

2. Introduction

image style transfer와 비슷한 기술 사용
- 무작위 잡음으로 시작하는 입력 신호를 최적화하는 것이 핵심
- 다른 CNN layer를 통과하며 원하는 image style을 가지게 되는 것
audio signal을 수정하여 새로운 sounds를 생성
- CNN의 filter와 activation function을 통해서 noise로부터 새로운 spectrogram을 생성

3. Methodology

최근 CNN을 acoustic연구에 적용하여 음성인식을 하는 연구들이 진행됨
- AlexNet, VGG-Net, ResNet등 사용
Short-Time Fourier Transform log-magnitude사용
spectrogram을 통한 연구
- duration 2.57s
- frame-size 30ms
- frame-step 10ms
- FFT-size 512
- audio sampling rate of 16kHz

3.1 Audio Style Transfer

= =
- $X_r$ = reconstructed spectrogram
- $L_c$ = content loss = loss between filters of model and of content
- $L_s$ = style loss = normalized Eucildean norm between Gram matrix of filter activations
- $L_e, L_t$ = deviation in the temporal and frequency energy envelopes respectively from the style audio
- Gram matrix는 target audio style의 시간적 역동을 포함하지 않으므로 energy term 필요
3x3 filter의 AlexNet 사용
- 3x3 filter는 audio의 time, frequency의 resolution을 보존하기 위해 작은 receptive field 사용
- 80개의 musical instrument sounds를 구별하도록 audio spectrogram을 학습
- cross-entropy와 Adam 사용
random-noise를 input, 실제 sound를 target으로 두고 CNN을 학습시키 후, 원하는 sound를 다시 input으로 넣어주면 input sound가 target sound처럼 바뀌어 나오는 architecture
- pitch, time, instrument의 사전지식 없이 음악의 timbre(음색) transfer가 학습됨
loss term 추가
- 평균적인 음색과 energy envelope를 match하기 위하여 사용

4. Experiments

result

timbre(음색)뿐만 아니라 bandwidth(대역폭)도 바뀜

5. Conclusion and Future Work

음성 합성에서 style transfer로 접근한 것은 새로운 방법

6. Reference

https://arxiv.org/abs/1801.01589

Related Posts

Video Style Transfer[1] Artistic style transfer for videos(2016) - Review (Categories: deeplearning, video, style-transfer, paperreview)
FPN[1] Feature Pyramid Networks for Object Detection(2016) - Review (Categories: deeplearning, cnn, image-detection, fpn, paperreview)
R-FCN[2] R-FCN++: Towards Accurate Region Based Fully Convolutional Networks for Object Detection(2018) - Review (Categories: deeplearning, cnn, image-detection, r-fcn, paperreview)
R-FCN[1] R-FCN: Object Detection via Region based Fully Convolutional Networks(2016) - Review (Categories: deeplearning, cnn, image-detection, r-fcn, paperreview)
Light-Head R-CNN[1] Light-Head R-CNN: In Defense of Two Stage Object Detector(2017) - Review (Categories: deeplearning, cnn, image-detection, r-cnn, paperreview)
DSSD[1] DSSD: Deconvolutional Single Shot Detector(2017) - Review (Categories: deeplearning, cnn, image-detection, dssd, paperreview)

« AlexNet[1] ImageNet Classification with Deep Convolutional Neural Networks(2012) - Review Audio Style Transfer[2] Style Transfer for Prosodic Speech(2017) - Review »