음성과 텍스트를 이용한 멀티모달 한국어 감정 인식 연구
A Study on Multimodal Korean Emotion Recognition using Speech and Text
- 주제어 (키워드) 멀티모달 , 감정인식 , 감정분류; Multimodal , Fusion , Emotion Recognition , Emotional Classification , HuBERT , LLaMa2 , KoELECTRA , Wav2Vec2
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000076918
- UCI I804:11029-000000076918
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
Speech Emotion Recognition (SER) is a crucial technology that enhances interactions in telemarketing and voice assistant chatbots. AI speakers, in particular, can offer diverse services with increased accuracy in speech emotion recognition during daily life conversations. The "Conversation Speech Dataset for Emotion Classification" from AI Hub comprises conversations classified into four major emotions: Angry, Happiness, Neutral, and Sadness. Given the multimodal nature of voice data, a text emotion recognition model can be developed using text data generated through Speech To Text (STT). We propose the LLaMa2 model, comparing it with the existing KoELECTRA. Additionally, a speech emotion recognition model can be created by automatically extracting features from the Mel Frequency Cepstral Coefficients (MFCC) and Mel Spectrogram of audio data, where we propose the HuBERT model, comparing it with the existing Wav2Vec2. To investigate the optimal Fusion method for combining features from both models, we experiment with Early Fusion, Late Fusion, and Hybrid Fusion. Our results show that the unimodal speech emotion recognition model HuBERT and the text emotion recognition model LLaMa2 achieved high accuracy at 0.8139 and 0.8125, respectively. Notably, the HuBERT + LLaMa2 Late Fusion method demonstrated the highest accuracy at 0.8480. In conclusion, using multimodal approaches improved accuracy by 11% compared to unimodal models.
more초록
음성 감정 인식(SER)은 텔레마케팅이나 음성 비서 챗봇과 같은 환경에서 더 풍부한 상호작용을 가능케 하는 필수 기술 요소이다. 특히 AI 스피커에서는 일상 대화에서 음성 감정 인식의 정확도가 높아지면 다양한 서비스를 제공할 수 있다. 이에 따라 우리는 일상 생활 대화를 기반으로 음성 감정 인식(SER) 성능을 향상시키기 위한 연구를 진행하고자 한다. AI 허브에서 제공하는 "감정 분류를 위한 대화 음성 데이터셋"은 주요 감정인 분노(Angry), 행복(Happiness), 보통(Neutral), 슬픔(Sadness)을 포함한 총 4가지 감정으로 구분된 일상 대화로 이루어져 있다. 음성 데이터는 텍스트 데이터와 오디오 데이터의 멀티모달 성격을 가지고 있기 때문에 STT(Speech To Text)를 통해 생성된 텍스트 데이터를 활용하여 텍스트 감정 인식 모델을 구축할 수 있다. 이에 따라 KoELECTRA 대신 LLaMa2 모델을 제안합니다. 또한, 오디오 데이터의 MFCC와 Mel Spectrogram에서 피처를 자동 추출하여 음성 감정 인식 모델을 개발할 수 있으며, 이를 위해 Wav2Vec2 대신 HuBERT 모델을 제안한다. 두 모델의 피처를 결합하는 시점에 따라 Early Fusion, Late Fusion, Hybrid Fusion의 세 가지 Fusion 방식을 실험하여 어떤 방식이 우수한 성능을 보이는지 실험하였다. 본 논문에서는 유니모달로 사용된 음성 감정 인식 모델인 HuBERT와 텍스트 감정 인식 모델인 LLaMa2가 각각 0.8139, 0.8125의 높은 정확도를 보였다. 특히, 멀티모달 HuBERT + LLaMa2 Late Fusion 방식이 0.8480의 가장 높은 정확도를 달성했다. 마지막으로, 멀티모달 접근을 통해 유니모달 대비 11%의 성능 향상을 확인하였으며, 한국어 감정 인식 성능을 향상시키는 방안을 제안하고 검증하였다.
more목차
제 1 장 서론 1
제 2 장 관련 연구 3
제 1 절 음성 감정 인식 3
제 2 절 텍스트 감정 인식 4
제 3 절 음성과 텍스트를 이용한 멀티모달 감정 인식 5
제 3 장 음성과 텍스트를 이용한 멀티모달 한국어 감정 인식 제안 8
제 1 절 HuBERT 모델을 이용한 음성 감정 인식 8
제 2 절 LLaMa2 모델을 이용한 텍스트 감정 인식 9
제 3 절 멀티모달(Multimodal) Fusion 이용한 감정 인식 11
제 4 장 실험 및 분석 13
제 1 절 데이터 선정 및 전처리 13
제 2 절 실험 환경 및 평가 방법 19
제 3 절 음성 감정 인식 모델 HuBERT 실험 및 비교 결과 20
제 4 절 텍스트 감정 인식 모델 LLaMa2 실험 및 비교 결과 23
제 5 절 멀티모달 감정 인식 모델 Fusion 실험 및 비교 결과 26
제 6 절 최종 실험 및 비교 분석결과 31
제 5 장 결론 33
참고 문헌 34