검색 상세

한국어 환경에서의 정밀도 향상을 위한 멀티모달 감정 인식 : 딥러닝 접근법

Multimodal Emotion Recognition for Enhanced Precision in a Korean Environment : A Deep Learning Approach

초록 (요약문)

본 논문은 한국어 환경에서 감정 인식의 정밀도를 향상시키기 위해 텍스트, 음성, 영상의 세 가지 모달리티를 통합한 멀티모달 딥러닝 모델을 제안하고 그 성능을 실험적으로 검증하였다. 기존의 단일 모달 기반 감정 인식 기술은 언어, 음향, 표정과 같은 다양한 감정 신호를 개별적으로 분석하기 때문에 한국어와 같은 고맥락 언어에서 발생하는 복합적이고 미묘한 감정 표현을 효과적으로 반영하기 어렵다는 한계가 존재하였다. 이에 따라 AI Hub 의 한국어 멀티모달 감정 인식 데이터셋을 기반으로 텍스트는 KoBERT, 음성은 MFCC 및 wav2vec 2.0, 영상은 Simple CNN 을 활용하여 각 모달리티의 특징을 추출하고 이를 feature-level 에서 통합한 후 MLP 분류기를 통해 감정을 분류하였다. 학습은 Google Colab Pro 환경의 NVIDIA A100 GPU 에서 수행하였으며 실험 결과 제안된 멀티모달 모델은 정밀도 87%로 단일 및 이중 모달 대비 높은 성능을 기록하였다. 특히 공포와 놀람, 슬픔과 중립 등 분류가 어려운 감정쌍에서 혼동이 크게 줄어드는 등 모달 간 상호보완성이 정량적으로 입증되었다. 다양한 방식으로 감정을 인식할 수 있는 멀티모달 전략이 한국어 환경에서도 잘 작용한다는 것을 실제 실험을 통해 확인하였으며 다음과 같은 목적과 의미를 가진다. 첫째, 다양한 감정 표현의 복합적 신호를 효과적으로 통합함으로써 단일 모달 접근의 한계를 극복하고자 하였다. 둘째, 한국어의 언어적 특성과 감정 전달의 미묘함을 반영할 수 있는 최적화된 사전학습 기반 인코더를 설계하고 융합함으로써 정밀도를 향상시켰다. 셋째, 실제 서비스 환경에서 활용 가능한 모델 구조를 구현하여 향후 실시간 감정 분석 시스템, 감성 피드백 시스템, 감정 기반 인터페이스 등에 응용할 수 있는 기술적 기반을 제공하였다. 또한, 본 논문은 실험을 통해 모달 간 결합 방식의 유효성을 정량적으로 비교하였으며 이중 및 삼중 모달 구조 간 성능 차이를 통해 융합 전략의 정당성과 확장 가능성을 확인하였다. 이러한 결과는 향후 저자원 감정 클래스에 대한 보완, 실시간 시스템 적용, 감정 강도 및 연속 감정 인식 등으로의 발전 가능성을 제시하며 한국어 감정 인식 기술 발전에 기여할 수 있는 실질적 기반을 마련하였다.

more

초록 (요약문)

This study proposes and empirically validates a multimodal deep learning model that integrates three modalities—text, audio, and video—to improve the precision of emotion recognition in Korean. Conventional unimodal emotion recognition systems, which rely solely on text, speech, or facial expressions, struggle to accurately reflect complex and subtle emotional expressions, especially in high-context languages like Korean. To address this limitation, we utilize the Korean multimodal emotion recognition dataset provided by AI Hub. Text features were extracted using KoBERT, audio features through MFCC and wav2vec 2.0, and visual features from facial expressions using a Simple CNN. These features were fused at the feature level and input into an MLP classifier. Training was performed in a Google Colab Pro environment using an NVIDIA A100 GPU. The proposed model achieved a precision of 87%, outperforming both unimodal and bimodal baselines. Notably, it significantly reduced classification confusion in difficult emotion pairs such as "fear-surprise" and "sad- neutral," demonstrating the complementary nature of each modality. This study confirms through empirical evidence that integrating various modalities for emotion recognition works effectively in Korean contexts. The objectives of this work are as follows: first, to overcome the limitations of unimodal approaches by effectively combining multiple emotional signals; second, to improve precision by designing and integrating pretrained encoders optimized for the linguistic and emotional subtleties of Korean; and third, to provide a practical model architecture that can be extended to real-time emotion analysis systems and emotion-aware user interfaces.

more

목차

제 1 장 서론 1
제 1 절 연구 배경 및 필요성 1
제 2 절 연구 목적 및 구성 2
제 2 장 관련 연구 3
제 1 절 감정인식에 사용되는 모델 3
(1) BERT 기반 언어 모델 4
(2) wav2vec 2.0 기반 음성 인식 모델 7
(3) VGG 및 ResNet 기반 얼굴 표정 인식 모델 9
제 2 절 멀티모달 기반 감정 인식의 발전 동향 13
(1) 음성과 얼굴 이미지를 이용한 멀티모달 13
(2) 음성과 텍스트를 이용한 멀티모달 15
제 3 장 연구 방법 17
제 1 절 데이터셋 구성 및 컴퓨터 환경 17
제 2 절 전처리 및 특징 추출 18
(1) 텍스트 전처리 18
(2) 음성 전처리 20
(3) 영상 전처리 22
제 3 절 모달별 딥러닝 인코더 설계 및 구현 24
(1) 텍스트 인코더 (KoBERT) 24
(2) 음성 인코더 (MFCC / wav2vec 2.0) 26
(3) 영상 인코더 (CNN) 29
(4) 멀티모달 인코더 (Fusion & Classifier) 31
제 4 장 모델 학습 및 결과 34
제 1 절 텍스트 기반 모델 학습 결과 34
제 2 절 음성 기반 모델 학습 결과 35
제 3 절 영상 기반 모델 학습 결과 36
제 4 절 이중 모달 모델 학습 결과 38
제 5 절 단일, 멀티모달 학습 결과 비교 40
제 5 장 결론 42
참고 문헌 44

more