Pseudo-Label Training for Deep Learning-Based Music Transcription
딥러닝 기반의 음악 채보를 위한 의사 레이블 훈련
- 주제(키워드) Music Information Retrieval , Automatic Music Transcription , Optical Music Recognition , Dynamic Time Warping , Pseudo-labeling , Multimodality , 전산음악학 , 자동 음악 채보 , 광학 음악 인식 , 동적 시간 워핑 , 의사 레이블 , 멀티모달
- 발행기관 서강대학교 일반대학원
- 지도교수 정다샘
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제URI http://www.dcollection.net/handler/sogang/000000082755
- UCI I804:11029-000000082755
- 본문언어 영어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
The efficacy of deep learning-based solutions in music is heavily dependent on the availability of large-scale annotated datasets, which poses a significant challenge for tasks involving underrepresented forms of music. Specifically, Automatic Music Transcription (AMT) for string quartets lags behind solo piano transcription due to the scarcity of time-aligned annotations. To address this, this thesis proposes a pipeline for creating a large-scale pseudo-label dataset by leveraging weakly-aligned score images and audio from the YouTube Score Video (YTSV) dataset. The proposed method employs Optical Music Recognition (OMR) to perform modal translation, extracting notation data from images of sheet music. These sequences are then synchronized with audiousing Dynamic Time Warping (DTW) to generate time-aligned training labels. Despite inherent noise in the generation process, this approach produces a training corpus orders of magnitude larger than existing datasets, and experimental results demonstrate that leveraging pseudo-labels yields consistent improvements in multi-instrument AMT performance. This work ultimately highlights the potential of cross-modal translation and alignment strategies as effective countermeasures for data scarcity.
more초록(요약문)
전산음악학에서 딥러닝 기반 솔루션의 효용성은 대규모 레이블 데이터셋의 유무에 크게 의존하며, 이는 데이터가 부족한 음악 형식을 다루는 작업에 있어 상당한 어려움으로 작용한다. 일례로, 현악사중주를 위한 자동 음악 채보(AMT)는 시간 정렬된 오디오-MIDI 데이터의 희소성으로 인해 독주 피아노 음악에 비해 크게 뒤쳐져 있다. 이를 해결하기 위해, 본 논문은 YouTube Score Video (YTSV) 데이터셋의 약하게 정렬된(weakly-aligned) 악보 이미지와 오디오를 활용하여 대규모 의사 레이블(pseudo-label) 데이터셋을 생성하는 파이프라인을 제안한다. 먼저 광학 음악 인식(OMR)을 통해 악보 이미지를 전산화된 악보 데이터로 변환하는 모달 번역(modal translation)을 수행한다. 이렇게 추출된 시퀀스는 동적 시간 워핑(DTW)을 통해 실제 연주 오디오와 동기화되어 시간 정렬된 학습 레이블로 생성된다. 생성 과정에서 불가피하게 누적되는 노이즈에도 불구하고, 이 접근 방식은 기존 데이터셋보다 압도적으로 큰 규모의 학습 코퍼스를 만들어내며, 실험 결과 이러한 의사 레이블을 활용했을 때 다중 악기 채보 성능이 일관되게 향상됨을 보였다. 결론적으로 본 연구는 데이터 부족 문제에 대한 효과적인 대응책으로서 모달 번역 및 정렬 전략의 잠재력을 시사한다.
more목차
국문초록 1
Abstract 2
1 Introduction 4
2 Background 7
2.1 Modalities of Music Representation 7
2.2 Automatic Music Transcription 9
2.3 Optical Music Recognition 10
2.4 Dynamic Time Warping 11
2.4.1 Problem Formulation 12
2.4.2 Local Cost Measure and Cost Matrix 12
2.4.3 Warping Path and Optimal Alignment 13
2.4.4 The DTW Distance 14
2.4.5 Dynamic Programming Algorithm 14
2.4.6 Variants and Constraints 15
3 Method 17
3.1 Datasets 18
3.1.1 OpenScore String Quartets Corpus 18
3.1.2 AMT Datasets 19
3.1.3 YouTube Score Video Dataset 20
3.2 OMR Model Training and Inference 21
3.3 Baseline AMT Model 22
3.4 Pseudo-Label Generation 23
3.4.1 Alignment via Dynamic Time Warping 23
3.4.2 Data Filtering 25
3.4.3 Error Mitigation and Training Objective 26
4 Results 29
4.1 Evaluation Metrics 29
4.2 Evaluation Results 30
5 Conclusion and Discussion 33
Bibliography 35

