AI NPC와의 자연스러운 실시간 상호작용을 위한 연구
A Study on Natural Real-Time Interaction with an AI NPC
- 주제어 (키워드) AI NPC , 자연스러움 , 대화필러 , 감정인식 및 표현 , AI NPC , Naturalness , Conversational Fillers , Emotion Recognition and Expression
- 발행기관 서강대학교 메타버스전문대학원
- 지도교수 박상훈
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 메타버스전문대학원 메타버스테크놀로지
- 실제 URI http://www.dcollection.net/handler/sogang/000000079864
- UCI I804:11029-000000079864
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 AI NPC와의 자연스러운 실시간 상호작용을 구현하기 위해 설계되었다. 이를 위해 대화 지연을 보완하는 대화필러(conversational filler)를 도입하고, 감정 인식 및 표현 기술을 통합하여 AI NPC가 더욱 인간적인 상호작용을 제공할 수 있도록 하였다. 연구는 음성 대화에서 발생하는 지연을 최소화하기 위해 STT, LLM, TTS, LipSync 기술의 융합을 기반으로 이루어졌으며, 이를 통해 자연스럽고 정서적으로 유대감을 형성하는 AI NPC를 구현하였다. 특히, 대화필러는 단순히 대화의 빈 시간을 메우는 것을 넘어 대화의 몰입감과 유연성을 증대 시키는 역할을 수행하였다. 또한, 감정 인식 기술을 활용하여 사용자의 표정과 음성을 분석하고 이를 바탕으로 적절한 감정을 표현함으로써 인간과 유사한 정서적 교류를 가능하게 했다. 이러한 기술은 게임, 상담, 교육 등 다양한 산업 분야에서 활용 가능성을 열어주며, HCI 및 아바타 활용 기업들에게 새로운 기회를 제공한다. 본 연구는 자연스러운 AI NPC구현의 기술적 토대를 마련했으며,향후 VR/AR환경에서의 확장 가능성 및 멀티모달 기술과의 결합을통한 더욱 정교한 상호작용 연구로 발전할 수 있는 방향성을 제시한다.
more초록 (요약문)
This study was designed to implement natural real-time interactions with an AI NPC. To achieve this, Conversational Fillers were introduced to compensate for dialogue delays, and emotion recognition and expression technologies were integrated to enable AI NPCs to provide more human-like interactions. The research was based on the convergence of STT, LLM, TTS, and Lip Sync technologies to minimize delays in voice conversations, thereby implementing AI NPCs that foster natural and emotionally engaging interactions. Specifically, Conversational Fillers not only filled gaps in dialogue but also enhanced the immersion and flexibility of conversations. Additionally, emotion recognition technology was employed to analyze users’ facial expressions and voices, allowing the AI NPCs to express appropriate emotions and enabling human-like emotional exchanges. These technologies open up new possibilities in various industries such as gaming, counseling, and education, offering novel opportunities for HCI and avatar-utilizing companies. This study establishes a technical foundation for implementing natural AI NPCs and suggests a future direction for developing more sophisticated interactions by combining multimodal technologies and expanding to VR/AR environments.
more목차
제 1장 서론 1
제 1.1절 연구 배경 1
1.1.1 AI NPC의 등장 및 한계 1
1.1.2 자연스러운 대화의 요소 2
제 1.2절 연구의 목적 4
제 1.3절 논문의 구성 6
제 2장 기존 연구 7
제 2.1절 음성 대화를 위한 기술 7
2.1.1 STT(Speech-to-Text) 7
2.1.2 TTS(Text-to-Speech) 8
2.1.3 LLM(Large Language Models) 10
2.1.4 LipSync 11
2.1.5 S2S (Speech-to-Speech) 13
2.1.6 통합 기술 : STT / TTS / LLM / LipSync 14
제 2.2절 자연스러운 대화를 위한 기술 14
2.2.1 대화필러 14
제 2.3절 감정 인식 기술 16
2.3.1 표정의 감정 인식 16
2.3.2 음성의 감정 인식 18
제 2.4절 감정 표현 기술 19
2.4.1 NPC의 표정 표현 19
2.4.2 감정 표현 TTS를 통한 감정적 음성 표현 20
2.4.3 표정 및 음성을 고려한 감정 표현 기술 22
제 3장 연구방법 23
제 3.1절 연구 전체 흐름 개요 23
3.1.1 음성대화의시스템아키텍처 23
3.1.2 기술 융합 구조도 24
제 3.2절 실험설계 26
3.2.1 음성 대화 구현 26
3.2.2 대화필러 도입 27
3.2.3 감정 인식 방법 27
3.2.4 감정 표현 방법 28
3.2.5 음성의 감정 표현 29
3.2.6 감정인식 및 표현의 관계도 29
제 4장 실험결과 31
제 4.1절 음성 대화 구현 31
4.1.1 STT / LLM / TTS구조와 S2S의 성능비교 31
제 4.2절 대화필러 도입을 위한 수리적 처리 33
4.2.1 대화필러의 종류 33
4.2.2 지연 시간 설정을 위한 실험 및 표 해석 34
4.2.3 지연 시간 기준 설정을 위한 '이동평균' 도입 38
4.2.4 윈도우 크기의 동적 변동을 위한 기준 설정 43
4.2.5 대화필러의 실제적 도입 및 결과 46
제 4.3절 감정 인식 처리 48
4.3.1 표정의 감정 인식 : 확률 처리 49
4.3.2 음성의 감정 인식 : 확률 처리 49
4.3.3 표정과 음성의 통합 감정 인식 49
4.3.4 종합적인 의미와 기대 효과 50
제 4.4절 감정 표현 처리 50
4.4.1 표정의 감정 표현 50
4.4.2 음성의 감정 표현 52
제 4.5절 대화필러와 감정 처리 기술 융합 53
제 4.6절 대화필러와 감정인식 및 표현의 최종 구현물 55
4.6.1 최종 구현물의 인터페이스 55
4.6.2 최종 구현물의 실험 결과 57
제 5장 토의 61
제 5.1절 결과의 해석 61
5.1.1 자연스러운 음성 대화 61
5.1.2 감정인식 및 자연스러운감정표현 61
제 5.2절 논문의 기여점 61
제 5.3절 한계점 62
제 6장 결론 64
제 6.1절 연구요약 64
제 6.2절 핵심결과 64
제 6.3절 이후 연구 제안 65
참고문헌 66