1. Abstract
- spectrogram에 CNN을 적용한 audio style transfer에 대한 연구
2. Introduction
- image style transfer와 비슷한 기술 사용
- 무작위 잡음으로 시작하는 입력 신호를 최적화하는 것이 핵심
- 다른 CNN layer를 통과하며 원하는 image style을 가지게 되는 것
- audio signal을 수정하여 새로운 sounds를 생성
- CNN의 filter와 activation function을 통해서 noise로부터 새로운 spectrogram을 생성
3. Methodology
- 최근 CNN을 acoustic연구에 적용하여 음성인식을 하는 연구들이 진행됨
- AlexNet, VGG-Net, ResNet등 사용
Short-Time Fourier Transform log-magnitude사용
- spectrogram을 통한 연구
- duration 2.57s
- frame-size 30ms
- frame-step 10ms
- FFT-size 512
- audio sampling rate of 16kHz
3.1 Audio Style Transfer
- = =
- = reconstructed spectrogram
- = content loss = loss between filters of model and of content
- = style loss = normalized Eucildean norm between Gram matrix of filter activations
- = deviation in the temporal and frequency energy envelopes respectively from the style audio
- Gram matrix는 target audio style의 시간적 역동을 포함하지 않으므로 energy term 필요
- 3x3 filter의 AlexNet 사용
- 3x3 filter는 audio의 time, frequency의 resolution을 보존하기 위해 작은 receptive field 사용
- 80개의 musical instrument sounds를 구별하도록 audio spectrogram을 학습
- cross-entropy와 Adam 사용
- random-noise를 input, 실제 sound를 target으로 두고 CNN을 학습시키 후, 원하는 sound를 다시 input으로 넣어주면 input sound가 target sound처럼 바뀌어 나오는 architecture
- pitch, time, instrument의 사전지식 없이 음악의 timbre(음색) transfer가 학습됨
- loss term 추가
- 평균적인 음색과 energy envelope를 match하기 위하여 사용
4. Experiments
- timbre(음색)뿐만 아니라 bandwidth(대역폭)도 바뀜
5. Conclusion and Future Work
- 음성 합성에서 style transfer로 접근한 것은 새로운 방법