ViolinDiff : Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning
[바이올린 디퓨전]
- 주제어 (키워드) 미디 합성 , 디퓨전 모델 , 피치밴드 , 악기 합성 , 비브라토 평가 , 미디 오디오 합성 , Violin Synthesis , Diffusion models , pitch bends , Inst Synthesis , Vibrato Evaluation , Midi-to-Audio
- 발행기관 서강대학교 일반대학원
- 지도교수 정다샘
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000079548
- UCI I804:11029-000000079548
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Modeling the natural contour of fundamental frequency (F0) plays a critical role in music audio synthesis. However, transcribing and managing multiple F0 contours in polyphonic music is challenging, and explicit F0 contour modeling has not yet been explored for polyphonic instrumental synthesis. In this paper, we introduce ViolinDiff, a two-stage diffusion-based synthesis framework designed to address these challenges. The first stage estimates the F0 contour by converting polyphonic F0 data from a given violin MIDI file into pitch bend information. The second stage of ViolinDiff generates a mel spectrogram that integrates these pitch bends, producing more nuanced and realistic audio outputs. The quantitative evaluations, including a vibrato metric that measures the accuracy of vibrato generation, along with listening test results, demonstrate that the proposed model generates more realistic and expressive violin sounds than models without explicit pitch bend modeling.
more초록 (요약문)
기본 주파수(F0)의 자연스러운 윤곽을 모델링하는 것은 음악 오디오 합성에서 중요한 역할을 합니다. 그러나 다성 음악에서 여러 F0 윤곽을 정확히 변환하고 관리하는 것은 매우 어려운 과제이며, 다성 악기 합성을 위한 명시적인 F0 윤곽 모델링은 아직 탐구되지 않았습니다. 이 논문에서는 이러한 문제를 해결하기 위해 ViolinDiff라는 두 단계로 구성된 디퓨전 기반 합성 프레임워크를 소개합니다. 첫 번째 단계에서는 주어진 바이올린 MIDI 파일에서 다성 F0 데이터를 피치 벤드 정보로 변환하여 F0 윤곽을 추정합니다. ViolinDiff의 두 번째 단계에서는 이러한 피치 벤드를 통합한 멜 스펙트로그램을 생성하여, 보다 정교하고 현실감 있는 오디오 출력을 만듭니다. 비브라토 생성의 정확도를 측정하는 비브라토 메트릭을 포함한 정량적 평가와 청취 테스트 결과를 통해, 제안된 모델이 명시적인 피치 벤드 모델링이 없는 모델보다 더 현실적이고 표현력 있는 바이올린 소리를 생성함을 입증합니다.
more목차
1 Introduction 1
2 Background 3
2.1 Background on MIDI to Audio Conversion 3
2.2 Diffusion Model 4
2.2.1 Forward Diffusion Process 5
2.2.2 Reverse Diffusion Process 6
2.2.3 Training Objective 6
2.3 Conditional Diffusion Models and Classifier-Free Guidance 8
2.3.1 Classifier Guidance 8
2.3.2 Classifier-Free Guidance 9
3 Related Works 11
3.1 Non-Diffusion Based Instrument Synthesis 11
3.2 Diffusion Based Instrument Synthesis 12
3.3 Singing Voice Synthesis 13
4 Dataset 15
5 Methodologies 17
5.1 Synthesis Module 19
5.2 Bend Estimation Module 20
5.3 Diffusion Process 20
6 Evaluation Metric 22
6.1 Fréchet Audio Distance (FAD) 22
6.2 Vibrato Evaluation 24
7 Experiments 27
7.1 Implementation Details 27
7.2 Baseline Model: ViolinDiff without Pitch Bend 28
7.3 Listening Test 28
8 Results 31
9 Conclusion 35
Bibliography 36

