Inferring the Transformation of Korean Early Music using Deep Neural Network : Focusing on Chihwapyeong and Chwipunghyeong
심층신경망을 활용한 한국 고음악의 변천 추론 : 치화평, 취풍형을 중심으로
- 주제어 (키워드) Artificial Intelligence , Korean Traditional Music , Gugak , Music Generation , Language model , Deep Neura Network; 인공지능 , 한국전통음악 , 국악 , 음악생성 , 언어모델 , 심층신경망
- 발행기관 서강대학교 일반대학원
- 지도교수 정다샘
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 아트&테크놀로지
- 실제URI http://www.dcollection.net/handler/sogang/000000077258
- UCI I804:11029-000000077258
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
The oldest known Korean traditional music score, “Sejong Silok Score,” contains early Joseon Dynasty court music, including Yeominrak (여민락), Chihwapyeong (치화평) and Chwipunghyeong (취풍형) Of these, Yeominlak has evolved and been recorded in various scores over centuries, while the other pieces have not been transmitted to the present day and are no longer performed. This research focuses on training a deep neural network music generation model using the historical evolution of Yeominlak as a basis. The model is then used to speculate and recreate what Chihwapyeong and Chwipunghyeong might have transformed like if they had continued to evolve until today. For this purpose, we used a dataset of Yeominlak scores from eight different eras, each aligned in measure-level. We formed training pairs by matching melodies from one era with their corresponding melodies in the next era. A sequence-to-sequence (Seq2seq) model was trained to generate melodies that correspond to an input melody for a given historical era. To prevent overfitting within this limited dataset, we explored various methods, particularly focusing on a comparison between an autoregressive model using note-based encoding and a non-autoregressive model based on frame sampling encoding. We applied techniques such as Teacher Forcing Masking and Position-Conditioned methods to the autoregressive model to further mitigate overfitting, and assessed their effectiveness. Ultimately, we successfully created scores for Chihwapyeong and Chwipunghyeong that represent eight historical periods. These generated scores were evaluated through quantitative metrics and expert reviews. The results showed that the autoregressive model, especially with the application of Teacher Forcing Masking and Position-Conditioned methods, received the highest evaluations from experts, demonstrating the feasibility of generating new traditional music using limited datasets. This study presents a novel approach for researching and creating traditional music using artificial intelligence and deep learning models.
more초록
현재 남아있는 한국전통음악 악보 중 가장 오래된 `세종실록악보'에는 `여민락'과 `치화평'과 `취풍형'을 비롯한 조선 초기 궁중음악이 수록되어 있다. 이 중 여민락은 수백년에 걸쳐 여러 악보에 기록되며 변형을 거듭하여 전해지고 있지만 나머지 곡들은 전승이 끊겨 현재는 연주되고 있지 않다. 본 연구는 여민락이 시대를 걸쳐 어떻게 변화했는지를 바탕으로 심층신경망 음악 생성모델을 학습시키고 이를 활용하여 치화평과 취풍형이 현재까지 전승되었다면 어떻게 변화하였을지 추론하여 악보를 재현한다. 이를 위해 여민락의 8개 시대별 악보를 마디 단위로 정렬해둔 데이터셋을 학습에 활용하였다. 이 데이터셋에서 특정 시대의 멜로디와 이에 대응하는 그 다음 시대의 멜로디를 짝지어 학습 쌍으로 구성하였다. 그리고 이 데이터 쌍를 학습하여 원하는 시대조건을 주어줬을 때 입력 멜로디에 상응하는 멜로디를 생성해내는 시퀀스투시퀀스(Seq2seq) 모델을 구현하였다. 한정된 데이터셋 안에서 과적합을 피하기 위해서 다양한 방법을 시도하였고 이 중 음표 기반 인코딩의 자기회귀모델과 프레임 샘플링 기반 비자기회귀모델을 중점적으로 비교하였다. 자기회귀 모델의 경우 모델이 과적합되는 것을 방지하기 위해 추가적으로 Teacher forcing masking 및 Position-conditioned 같은 방법을 적용하였으며 그 효과를 검증하였다. 최종적으로 치화평, 취풍형에 대해 8개 시대별 악보에 해당하는 악보를 완성하였으며, 그 생성된 악보에 대해 정량적 메트릭과 전문가 평가를 진행하고 그 결과를 비교하였다. 그 결과 Teacher fording masking 및 Position-conditioned 방법을 적용한 자기회귀모델의 생성 결과가 전문가들에게 가장 좋은 평가를 받았다. 이는 한정된 데이터셋 만을 활용해서도 새로운 전통음악을 생성할 수 있다는 가능성을 보여준다. 위 연구를 통해 우리는 인공지능 및 딥러닝 모델을 활용한 새로운 전통음악의 연구 및 생성 접근법을 제시한다.
more목차
1 Introduction 9
2 Background 13
2.1 Musical Background 13
2.1.1 Historic Background 13
2.1.2 Transformation Process of Yeominlak 14
2.1.3 Chihwapyeong, Chwipunghyeong 15
2.2 Technical Background 18
2.2.1 Symbolic Music Generation 18
2.2.2 Previous works for Korean music 19
3 Dataset 21
3.1 Yeominlak Chronological Dataset 21
3.2 Chihwapyeong, Chwipunghyeong Dataset 22
3.3 Data Statistics 25
3.3.1 Beat and Dynamics 25
3.3.2 Pitch and Duration 27
4 Methodology 29
4.1 Data processing 29
4.1.1 Measure Alignment 29
4.1.2 Note Encoding 29
4.2 Model 31
4.2.1 Auto-regressive RNN (Proposed) 32
4.2.2 Non-autoregressive RNN 36
5 Experiments and Evaluation 38
5.1 Training 38
5.1.1 Training and Validation Dataset 38
5.1.2 Era Condition 39
5.1.3 Training Details 40
5.2 Inference 41
5.2.1 Era-sequential Inference 41
5.2.2 Moving Window Inference 42
5.2.3 Beat Shifting 43
5.2.4 Generated Result 43
5.3 Evaluation 46
5.3.1 Metrics Evaluation 46
5.3.2 Evaluation result 47
5.3.3 Expert Evaluation 49
6 Discussions and Conclusion 51
Bibliography 53