본문 바로가기

Paper

[논문] A Unified Neural Architecture for Instrumental Audio Tasks

ABSTRACT

MIR tasks - pitch tracking, source separation, super resolution, synthesis

위 tasks에 적용가능한 End-to-end supervisable architecture 제시.

WaveNet, cGAN 사용.

악기 합성에 GAN을 처음 적용.

 

Introduction

MIR tasks - pitch tracking, source separation, super resolution, synthesis , 모두 다른 task로 취급받아 왔다. 

인간은 노래를 들으며, 특정 악기를 구분하고 pitch tracking 한다. -> 통합 model idea

pitch tracking : F0만 뽑아내기

synthesis : F0을 취하고 나머지 spectrum 합성

Source separation : 한 악기가 내는 주파수를 detecting, 나머지는 무시

super resolution : Lo-fi 음원을 원본으로 복원

-> Mel 에서 GAN으로 학습

cGAN으로 mel-spectrogram translation을 학습하고 이는 최종 오디오를 재구성하기 위한 WaveNet condition으로 쓰인다. 

 

cGAN

c

 

WaveNet

t 시점의 오디오 샘플을 t-1 시점까지의 샘플들의 조건부 분포로 모델링한다. 수식은 다음과 같다.

$p(x) = \prod_{t=1}^{T}p(x_t | x_1, ... ,x_{t-1})$

이는 특정 시점의 아웃풋을 계산할때 이전 시점의 인풋 데이터값을 보겠다는 의미이다. WaveNet은 위와 같은 조건부 분포를 Conv layer를 쌓아서 모델링한다. 네트워크에 pooling layer는 없고 input, output 차원이 동일하다. output에는 softmax를 취해 multinomial classification 문제로 다룬다. 최적화는 MLE를 사용한다. (다항분포 MLE -> minimize negative-log-likelihood -> minimize cross-entropy) 

 

 

softmax

아웃풋(조건부 확률)을 모델링 하는데 있어서, softmax 분포를 사용. 즉 mutinomial logistic regression 문제로 생각한다. 이러한 categorical distribution은 형태에 대한 가정이 없기 때문에 flexible하다는 장점이 있다. 대부분의 audio 신호는 16-bit로 quantization, 이를 softmax로 표현하려면 sample마다 65536개의 아웃풋이 필요하다. 즉 65536차원의 softmax 분포를 연산해야돼서 연산량이 너무 많다. 따라서 8-bit quantization sample(256개)을 사용, mu-law companding을 적용해 non-lineat하게하여 quatization 8-bit이지만 꽤 좋은 성능을 보이게 한다. 결국 우린 256개의 discrete한 값 중에 아웃풋이 어떤값으로 분류될지 그 확률(softmax)을 계산하게 된다.

다음과 같은 수식으로 mu-law companding을 하여, 256개의 value로 quantize 한다.

$f(x_t) = sign(x_t)\frac{\ln (1 + \mu \left | x_t \right |)}{(1+\mu)}$$ \ where, -1 < x_t < 1 , \mu = 255$


GAN-WV 

 

Datasets

바이올린, paired

pitch tracking, synthesis : multi-sine-wave(F0 + first 5 harmonics, MIDI), 바이올린 track(Bach10)

생성한 사인파를 타겟으로 바이올린 트랙을 학습

super resolution : 바이올린 음원 -> downsampling -> Lo-fi track

원래음원을 타겟으로 Lo-fi 트랙을 학습

*구지 GAN으로 할 필요가 있나..?

source separation : 바흐 교향곡, MIDI 만든 합성 음원(바흐, Freuschutz, Phenicx)

 

Traslation

각 task에 맞게 generator가 학습된 후 task들은 다음과 같이 정의된다. 

pitch tracking : 위성이미지가 로드맵으로 변환되는 것과 같은 방식의 semantic segmentation

semantic segmentation

source separation : 신호 관련 패턴을 전달하고 다른 것을 무시하는 denoising 

super resolution : spectrogram의 전반부(low-frequencies)로 나머지 절반을 채우는 inpainting

synthesis : 모델이 악기의 전체 harmonic style을 뽑고, 이를 harmonic 청사진 역할의 사인파에 적용한다. 

 

Experiments

metric : SSIM(Structure similarity index) - 이미지 구조적 유사 지수

 

Joint Learning

cGAN 인풋 채널 3개(pitch, separate, Enhance*) 로 늘려서 unified model을 학습하게 함.

*Enhance : sythesis + super resolution

 

Conclusion

MIR 분야의 general, unified model을 제시