컨텍스트를 활용한 멀티모달 감정 인식 AI 연구
A Study on Multimodal Emotion Recognition AI Using Context
- 주제어 (키워드) 멀티모달 , 인공지능 , 감정 인식 , 머신러닝 , 후기 융합 , multimodal , ai , emotion recognition , machin leaning , late fusion
- 발행기관 서강대학교 메타버스전문대학원
- 지도교수 김진화
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 메타버스전문대학원 메타버스테크놀로지
- 실제 URI http://www.dcollection.net/handler/sogang/000000079212
- UCI I804:11029-000000079212
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구에서는 인공지능(AI)이 인간의 감정을 더 정확하게 인식할 수 있도록, 음성, 얼굴 표정, 텍스트 정보에 맥락을 포함한 멀티모달 감정 인식 모델을 개발하였다. 먼저 AI 허브의 ‘멀티모달 영상’ 데이터셋을 사용하여 4가지 감정(기쁨, 중립, 슬픔, 분노)을 학습시켰다. 음성 감정 분류 모델로 HuBERT, 얼굴 표정 감정 분류 모 델로 ArcFace, 텍스트와 컨텍스트 감정 분류 모델로 Llama3-8B를 활용하여 각각의 모달리티를 독립적으로 처리하는 모델을 구축하였다. 이후, 각 모달리티 및 모달리 티 간 조합의 감정 인식 성능을 평가하였고, 기존 연구에서 주로 사용하는 softmax 가중치 방식과 일곱 가지 머신러닝 모델을 적용하여 성능을 비교 분석하였다. 연구 결과, 컨텍스트 모델을 얼굴, 텍스트 모달리티와 머신러닝 모델로 융합했을 때, 전반적으로 높은 감정 예측 정확도를 나타냈다. Late fusion 시 머신러닝 모델을 적용하는 것이 softmax를 통한 가중치 방식보다 감정 인식 정확도가 높다는 점도 발견하였다. 결론적으로, 본 연구는 멀티모달 감정 인식 분야에서 컨텍스트 모델의 중요성을 입증하고, 다양한 머신러닝 모델을 적용하여 감정 인식의 정확도를 높이는 새로운 방법론을 제시하였다.
more초록 (요약문)
In this study, a multimodal emotion recognition AI model incorporating context into voice, facial expressions, and text information was developed to improve the accuracy of human emotion recognition. Using the AI Hub’s ’multimodal video’ dataset, AI models were fine-tuned to recognize four emotions (happy, neutral, sad, and angry). For each modality, HuBERT was fine-tuned for voice emotion classification, ArcFace for facial expression emotion classification, and Llama3-8B for text and context emotion classification. The emotion recognition performance of each modality and combinations of modalities was then evaluated, comparing the performance using the traditional softmax weighting method and seven machine learning algorithms. The results indicated that integrating the context model with facial and text modalities using machine learning models yielded high overall emotion prediction accuracy. Additionally, it was found that applying machine learning models during late fusion led to higher emotion recognition accuracy compared to the softmax weighting method. In conclusion, this study demonstrates the importance of the context model in multimodal emotion recognition and proposes new methodologies to enhance emotion recognition accuracy through the application of various machine learning models.
more목차
제1장 서론 1
제2장 관련 연구 3
2.1 음성 감정 인식 연구 3
2.2 얼굴 감정 인식 연구 5
2.3 텍스트 감정 인식 연구 7
2.4 감정인식 연구의 변화 8
2.5 멀티모달 감정인식 모델 11
2.6 머신러닝 모델 12
2.6.1 Decision Tree 13
2.6.2 Random Forest 13
2.6.3 SVM(Support Vector Machine) 13
2.6.4 ANN(Artificial Neural Network) 15
2.6.5 KNN(K-Nearest Neighbors) 15
2.6.6 Naive Bayes 15
2.6.7 Gradient Boosting 15
제3장 연구 방법 16
3.1 데이터셋 16
3.2 데이터 정제 16
3.2.1 음성 데이터 22
3.2.2 얼굴 데이터 22
3.2.3 텍스트 데이터 23
3.2.4 컨텍스트 데이터 23
3.3 모델 학습 아키텍처 24
3.3.1 음성 감정 분류 모델 24
3.3.2 얼굴 감정 분류 모델 24
3.3.3 텍스트 감정 분류 모델 25
3.3.4 컨텍스트 감정 분류 모델 25
3.4 최종 감정 분류 아키텍처 25
3.4.1 가중치 모델 26
3.4.2 컨텍스트 모델 26
3.4.3 머신러닝 모델 27
3.5 학습 환경 27
3.5.1 음성 모델 학습 환경 27
3.5.2 얼굴 모델 학습 환경 28
3.5.3 텍스트 및 컨텍스트 모델 학습 환경 28
제4장 학습 및 실험 결과 29
4.1 음성 모델 학습 및 결과 30
4.2 얼굴 모델 학습 및 결과 31
4.3 텍스트 모델 학습 및 결과 32
4.4 컨텍스트 모델 학습 및 결과 33
4.5 멀티모달 최종 감정 분류 방식 성능 비교 34
4.5.1 컨텍스트 모델 성능 35
4.5.2 가중치 모델 성능 36
4.5.3 머신러닝 모델별 성능 36
제5장 결론 39
5.1 연구 내용 요약 39
5.2 연구의 한계 및 제언 40
참고문헌 43