텍스트-오디오 모달리티 확장 커리큘럼 학습을 적용한 AudioLLM 기반 실시간 영-한 음성 번역 시스템
AudioLLM-Based Real-Time English-to-Korean Speech Translation System Using Text-Audio Modality Extension Curriculum Learning
- 주제(키워드) 음성-음성 번역 , 실시간 음성 합성 , 커리큘럼 학습 , speech-to-speech translation , AudioLLM , real-time speech synthesis , curriculum learning
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 이화란
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082417
- UCI I804:11029-000000082417
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
본 연구에서는 실시간 영–한 음성-음성 번역을 수행하는 AudioLLM–실시간 TTS 기반 캐스케이드 시스템을 설계하고 TEXT에서 AUDIO로 모달리티를 확장하 는 커리큘럼 학습을 통해 실제 서비스에서 요구되는 품질과 지연 수준을 달성 할 수 있는지를 실증적으로 검증한다. 이를 위해 7B 규모 Kimi-Audio AudioLLM에 대해 TEXT–TEXT(텍스트 번역)에서 AUDIO–TEXT(음성 번역)로 단계 적으로 난이도를 높이는 2단계 커리큘럼 러닝을 적용하여 약 0.63B 토큰 규모 의 영–한 병렬 텍스트와 2,300시간 분량의 오디오–텍스트 데이터를 학습시키 고 24kHz 고품질 한국어 TEXT–AUDIO 2,156시간 데이터로 CosyVoice2 기반 실 시간 TTS를 한국어 구어체에 특화되도록 적응 학습하였다. 이 과정에서 AudioLLM 기반의 종단간 학습을 시도하였으나, 고품질 병렬 데이터 수집 및 한국어 특성을 반영한 오디오 토크나이저 확보의 어려움으로 인해 실용적인 품질 확보에 한계가 있음을 확인하였다. 또한, VAD를 이용한 발화 단위 검출 과 스트리밍 처리 구조를 결합하여 “발화 종료 후 2초 이내 응답 시작”을 목표로 하는 실시간 영–한 음성-음성 파이프라인을 구현하였다. FLORES+ 및 FLEURS 벤치마크 번역 결과와 KsponSpeech 평가 결과로 제안한 Kimi-Audio(TEXT–TEXT → AUDIO–TEXT) 모델이 7B 규모임에도 Qwen2.5-Omni, Qwen3-Omni 등 32B 통합형 모델과 비교해 BLEU, chrF++, COMET 및 CER/WER 지 표에서 전반적으로 경쟁력 있는 성능을 보였으며 특히, TEXT–TEXT와 AUDIO– TEXT를 한 번에 학습한 통합 학습 대비 2단계 커리큘럼 학습 전략이 번역·음 성 이해 성능 모두에서 우수함을 확인하였다. 실시간 TTS 측면에서도 한국어 특화 TEXT–AUDIO 학습을 통해 CosyVoice2(BASE) 대비 CER/WER을 유의미하게 감소시켜 합성 음성의 명료도와 인식 용이성을 향상시켰고 VAD–AudioLLM–TTS 전체 파이프라인의 엔드투엔드 지연은 평균 약 1초, 대부분 2초 이내 응답 시작 기준을 충족하였다. 본 연구는 한국어 대규모 텍스트·음성 데이터 설계, 7B 규모 한국어 특화 AudioLLM 과 실시간 TTS, 커리큘럼 기반 학습을 결합함으로써 한국어 구어 환경에서 실용적인 수준의 실시간 영–한 음성-음성 번역 시스템을 구축할 수 있음을 보이며 향후 AudioLLM 기반 한국어 음성 상호작용 서비스 고도화를 위한 설계·학습 전략 측면의 구체적인 방향성을 제시한다. 주제어: 음성-음성 번역, AudioLLM, 실시간 음성 합성, 커리큘럼 학습
more초록(요약문)
In this study, we design a cascaded system that combines an AudioLLM with real-time TTS for real-time English-to-Korean speech-to-speech translation (S2ST), and we empirically evaluate whether it meets practical requirements in both quality and latency. We adopt a two-stage, modality-expanding curriculum for the 7B Kimi-Audio model, progressing from TEXT-to-TEXT machine translation to AUDIO-to-TEXT speech translation. Training uses approximately 0.63B tokens of English–Korean parallel text and 2,300 hours of audio–text data. For speech synthesis, we fine-tune a CosyVoice2-based real-time TTS model with 2,156 hours of high-quality 24 kHz Korean text–audio data to specialize in colloquial Korean speech. We also explored an end-to-end (E2E) AudioLLM-based approach. however, we observed practical limitations due to the difficulty of collecting high-quality parallel speech data and the lack of an audio tokenizer that adequately captures Korean linguistic characteristics. To enable low-latency interaction, we implement a streaming English-to-Korean S2ST pipeline with VAD-based utterance detection, targeting response initiation within two seconds after an utterance ends. Evaluations on FLORES+ and FLEURS, along with KsponSpeech, show that the proposed Kimi-Audio model trained with the TEXT-TEXT → AUDIO-TEXT curriculum achieves competitive BLEU, chrF++, COMET, and CER/WER compared with 32B-scale unified multimodal models such as Qwen2.5-Omni and Qwen3-Omni. Notably, the two-stage curriculum consistently outperforms joint training in both translation quality and speech understanding. For real-time TTS, Korean-specific text–audio training substantially reduces CER/WER relative to the CosyVoice2 (BASE) model, improving the clarity and intelligibility of synthesized speech. The end-to-end latency of the VAD–AudioLLM–TTS pipeline averages around one second, meeting the two-second response target in most cases. Overall, our results demonstrate that a practical real-time English-to-Korean S2ST system for colloquial Korean can be built by combining large-scale Korean text/speech data, a specialized 7B AudioLLM, real-time TTS, and curriculum-based training. This work provides concrete design and training guidance for future AudioLLM-based Korean voice interaction services.
more목차
제 1 장 서론1
제 1 절 연구의 배경 및 필요성1
제 2 절 연구의 목적 3
제 3 절 논문 구성4
제 2 장 선행 연구 5
제 1 절 실시간 음성 상호작용과 음성 인터페이스 5
제 2 절 대규모 음성텍스트 통합 모델 및 AudioLLM 8
제 3 장 제안 방안11
제 1 절 Kimi-Audio 기반 한국어 특화 커리큘럼 학습11
제 2 절 CosyVoice2 기반 한국어 실시간 TTS 적응 학습 13
제 3 절 실시간 영–한 음성-음성 시스템 설계 14
제 4 장 연구 실험 및 결과 16
제 1 절 AudioLLM TEXT-TEXT 한국어 언어 전이학습 17
(1) AudioLLM TEXT-TEXT 학습 데이터17
(2) AudioLLM TEXT-TEXT 모델 학습19
(3) AudioLLM TEXT-TEXT 학습 환경 및 파라미터20
(4) AudioLLM TEXT-TEXT 성능 지표 및 평가 데이터 21
(5) AudioLLM TEXT-TEXT 벤치마크 모델 선정 및 비교 평가23
제 2 절 AudioLLM AUDIO-TEXT 음성 이해 학습25
(1) AudioLLM AUDIO-TEXT 학습 데이터25
(2) AudioLLM AUDIO-TEXT 모델 학습26
(3) AudioLLM AUDIO-TEXT 학습 환경 및 파라미터27
(4) AudioLLM AUDIO-TEXT 성능 지표 및 평가 데이터29
(5) AudioLLM AUDIO-TEXT 벤치마크 모델 선정 및 비교 평가31
제 3 절 실시간 TTS TEXT-AUDIO 한국어 음성 합성 학습 33
(1) 실시간 TTS TEXT-AUDIO 학습 데이터 33
(2) 3단계 실시간 TTS TEXT-AUDIO 모델 학습35
(3) 실시간 TTS TEXT-AUDIO 학습 환경 및 파라미터 36
(4) 실시간 TTS TEXT-AUDIO 성능 지표 및 평가 데이터37
(5) 실시간 TTS TEXT-AUDIO 학습 전/후 비교 평가38
제 4 절 실시간 영-한 음성-음성 시스템 추론 속도 평가38
제 5 절 시스템 정성 평가40
제 6 절 AudioLLM AUDIO–AUDIO 추가 실험44
제 5 장 결론46
제 1 절 연구 결과 및 시사점46
제 2 절 한계 및 향후 연구 과제48
참고 문헌51

