Paper
2021. 9. 3.
[논문] AUDIO TRANSFORMERS:TRANSFORMER ARCHITECTURES FOR LARGE SCALE AUDIO UNDERSTANDING
original paper: https://arxiv.org/pdf/2105.00335.pdf Abstract Transformer만 써서 raw audio signal을 모델링 CNN pooling, wavelet decomposition에서 영감을 받은 multi-scale decompostion 임배딩 방법으로 성능을 향상 시킴 이 모델을 통해 non-linear & non constant bandwidth filter-bank를 학습할 수 있음 Data 200개의 클래스로 라벨이 붙어 있는 FSD50K 데이터 셋 사용, 51197개 오디오 클립을 1초 단위로 파싱하여 학습에 활용 Methodology Adapting Transformer Architecture for raw waveforms sa..