NESTED MUSIC TRANSFORMER : SEQUENTIALLY DECODING COMPOUND TOKENS IN SYMBOLIC MUSIC AND AUDIO GENERATION
- 주제어 (키워드) Nested Architecture , Symbolic Music , Discrete Audio Tokens , Compound Token , EnCodec , Generation , Language Model , Evaluation , Neural Network; 중첩 모델 구조 , 심볼릭 음악 , 이산화 토큰 , 컴파운드 토큰 , 엔코덱 , 음악 생성 , 언어 모델 , 평가 방식 , 신경망
- 발행기관 서강대학교 일반대학원
- 지도교수 정다샘
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079105
- UCI I804:11029-000000079105
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Symbolic music representation using compound tokens, each encompassing multiple musical features or sub-tokens, offers the benefit of reducing sequence length. While prior studies have confirmed the effectiveness of compound tokens in modeling music sequences, predicting all sub-tokens simultaneously can be inefficient as it loses dependencies between musical features inside compound tokens. This paper introduces the Nested Music Transformer (NMT), a spe- cialized architecture for autoregressively decoding compound tokens, similar to processing flattened tokens but with less memory usage and train time. NMT comprises two transformers: a main decoder for sequencing compound tokens and a sub-decoder for handling the flattened musical features within each compound token. Experimental results demonstrate that employing cross-attention for the sub-decoder yields superior performance over self-attention, particularly in reducing perplexity across various symbolic music datasets and discrete audio tokens from the MAESTRO dataset. We also proposed new encoding method “note-based encoding (NB)” which packed all the possible information into single note, and we proved that by shifting the predicting order of sub-tokens inside compound tokens, we can affect the attention/specialization of the model and leads to improvement of target musical features. This study aims to explore the feasibility and potential of generation tasks using compound tokens. Our research spans four diverse datasets focused on symbolic music and one on audio tokens, encompassing various genres and demonstrating adaptability to different datasets. We anticipate that our efforts in dataset preparation and model architecture exploration will provide valuable insights for future research in generation tasks employing compound tokens.
more초록 (요약문)
심볼릭 음악을 표현하는 방식 중에는 음악적인 요소들을 중첩하여 요약적으로 사용하는 컴파운드 토큰 (compound token) 을 활용하는 방식이 있다. 이러한 방식은 시퀀스의 길이를 줄이는데 상당히 효과적이지만 동시에 요약이 된 정보 를 제대로 디코딩 해내는 것은 아직 해결되지 않은 문제이다. 이전의 연구들은 컴파운드 토큰을 디코딩할 때에 각 음악적인 요소들을 독립적으로 예측하는 방식을 취했지만 이는 결과적으로 요소들간의 관계성을 이해하지 못한 디코딩의 방식으로 한계가 명확하다. 본 논문에서는 Nested Music Transformer (NMT) 라는 새로운 아키텍처를 제안함으로 컴파운드 토큰에서 음악적인 요소들을 순차 적으로 예측해내는 모델을 만들고자 한다. 이러한 디코딩의 방식은 기존에 모든 음악적인 요소들이 시퀀스에 1 대 1로 매칭을 하는 플래튼 방식과는 유사하지만 이를 컴파운드 토큰에 적용을 했다는 특징이 있다. 본논문에서진행한실험에서확인할수있듯이크로스어텐션을활용하여음 악적인 요소를 디코딩해내는 모델은 셀프 어텐션을 활용한 모델보다 perplexity 의 측면에서 뛰어난 성능을 보여주고 있으며, 이는 심볼릭 음악 생성과 오디오 토큰 생성에서 동시에 보이고 있는 모습이다. 우리는 또한 새로운 인코딩의 방 식인 “note-based encoding (NB)” 를 제안하고자 하는데 이 인코딩의 방식은 모든 가능한 정보들을 하나의 토큰에 담는 것으로 하나의 토큰이 하나의 노트에 대응이 되게끔 하는 인코딩의 방식이다. 이 방식을 더욱 활용하여 본 논문에서는 음악적인요소들을컴파운드토큰에배치하는방식을다르게하여모델이특정한 음악적인 요소에 더욱 집중할 수 있도록 하여 성능의 개선을 이끌 수 있었음을 보이고자 한다. 본 연구에서는 컴파운드 토큰을 활용한 생섬 모델의 가능성을 탐구하자고 하였으며, 이 연구는 네 가지의 다른 크기의 심볼릭 데이터셋과 한 가지의 오디 오 데이터셋에서 해당 모델의 성능을 평가하여 다양한 장르적인 특징에서도 본 모델의 가능성이 충분히 드러나고 있음을 검증하였다. 우리의 이러한 연구들이 앞으로 트랜스포머와 컴파운드 토큰을 활용하는 음악 생성의 연구들에 밑받침이 될 수 있기를 기대한다.
more목차
1 Introduction 1
2 Related Works 5
2.1 Symbolic Music Encoding 5
2.1.1 REMI 5
2.1.2 Compound Token 6
2.2 Discrete Audio Token 8
2.3 Decoding Architecture 8
3 Methodologies 10
3.1 Note-based Encoding (NB) 10
3.1.1 Musical Features in Symbolic Encoding 10
3.1.2 Representation 12
3.1.3 Vocabulary 15
3.1.4 Feature Shift 15
3.2 Nested Music Transformer 16
3.2.1 Token Embedding & Main Decoder 16
3.2.2 Sub-decoder with Cross Attention 17
3.2.3 Other Comparative Sub-decoder Structures 19
4 Experiment 24
4.1 Preparing Symbolic Music Dataset 24
4.1.1 EnCodec for MAESTRO 26
4.1.2 Model and Hyperparameter Configuration 26
4.1.3 Quantitative Evaluation on Symbolic Music 27
4.1.4 Quantitative Evaluation on Discrete Audio Tokens 30
4.1.5 Subjective Listening Test 30
5 Conclusion 34
Bibliography 35