멀티모달 융합을 통한 멀티에이전트 기반 추천시스템 연구 : MACRec 프레임워크 확장을 중심으로
A Multi-Agent Recommender System with Multimodal Fusion: Extending the MACRec Framework
- 주제(키워드) 추천 시스템 , 대형 언어모델 , 다중 에이전트 , 멀티모달 융합 , 평점 예측 , Recommender Systems , Large Language Models , Multi-Agent Systems , Multimodal Fusion , Rating Prediction , MACRec , Co-Attention
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 이화란
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000082343
- UCI I804:11029-000000082343
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
This study proposes a method to enhance recommender system performance by integrating Large Language Model (LLM)-based multi-agent systems with multimodal fusion techniques. Existing LLM-based recommender systems primarily rely on textual information, failing to fully leverage visual information such as images. To overcome this limitation, this research proposes an extended framework that integrates CAMRec's (Co-Attention based Multimodal Recommendation) multimodal fusion mechanism into MACRec's (Multi-Agent Collaboration framework for Recommendation) multi-agent collaboration structure. The proposed system employs a Manager Agent for base rating prediction and a newly introduced Fusion Module that combines RoBERTa text embeddings with CLIP image embeddings through a Co-Attention mechanism to provide multimodal correction values. The final prediction is computed via linear combination as 𝑟final = 𝑟base + 𝛾 × fusion_score, where 𝛾 is a hyperparameter controlling the contribution of multimodal information. We validated the Rating Prediction scenario across two domains (All_Beauty, Cell_Phones_and_Accessories) from the Amazon Reviews 2023 dataset with two sample sizes (100, 300). Comprehensive experiments were conducted on four Ablation modes (Multimodal, Text-only, Image-only, Baseline), three Fusion strategies (Co-Attention, Concatenation, Multiplication), and seven Gamma parameters (0.1~1.0), with five repetitions per condition to account for the stochastic nature of LLMs. The experimental results revealed that the effectiveness of multimodal fusion varies significantly depending on domain characteristics. In the Cell_Phones domain, where objective attributes are critical, Multimodal showed 5.59~7.32% improvement over Baseline, However in the All_Beauty domain, where subjective preferences dominate, Baseline outperformed Multimodal by 6.40~32.03%. For Fusion strategies, Co-Attention demonstrated 5.78~7.71% improvement over simple fusion methods in Cell_Phones, but in the small-scale All_Beauty dataset, Concatenation outperformed Co-Attention by 35.00%. Gamma parameter analysis indicated that the γ=0.1~0.4 range provided the most stable and superior performance, suggesting that using multimodal information in a supportive role is effective. This research represents the empirical validation of the MACRec framework and provides design guidelines for recommender systems combining LLM-based multi-agent systems with multimodal fusion.
more초록(요약문)
본 연구는 대형 언어모델(LLM) 기반 다중 에이전트 시스템과 멀티모달 융합 기술을 결합하여 추천 시스템의 성능을 향상시키는 방법을 제안한다. 기존 LLM 기반 추천시스템은 주로 텍스트 정보에만 의존하여 이미지와 같은 시각적 정보를 충분히 활용하지 못하는 한계가 있었다. 이를 극복하기 위해 본 연구는 MACRec(Multi-Agent Collaboration framework for Recommendation)의 다중 에이전트 협업 구조에 CAMRec(Co-Attention based Multimodal Recommendation)의 멀티모달 융합 메커니즘을 통합한 확장 프레임워크를 제안한다. 제안 시스템은 Manager Agent가 기본 평점 예측을 수행하고, 새롭게 도입된 Fusion Module은 RoBERTa 텍스트 임베딩과 CLIP 이미지 임베딩을 Co-Attention 메커니즘으로 융합하여 멀티모달 보정값을 제공하는 구조이다. 최종 예측은 𝑟final = 𝑟base + 𝛾 × fusion_score 형태의 선형 결합으로 산출되며, 𝛾 는 멀티모달 정보의 기여도를 조절하는 하이퍼파라미터이다. Amazon Reviews 2023 데이터셋의 2개 도메인(All_Beauty, Cell_Phones_and_Accessories)과 2개 샘플 크기(100, 300)에 대해 Rating Prediction 시나리오를 검증하였다. 4가지 Ablation 모드(Multimodal, Text-only, Image-only, Baseline), 3가지 Fusion 전략(Co-Attention, Concatenation, Multiplication), 7개 Gamma 파라미터(0.1~1.0)에 대한 종합 실험을 수행하였으며, 각 조건당 5회 반복 실험을 통해 LLM의 확률적 특성을 고려하였다. 실험 결과, 도메인 특성에 따라 멀티모달 융합의 효과가 크게 달라짐을 확인하였다. 객관적 속성 파악이 중요한 Cell_Phones 도메인에서는 Multimodal이 Baseline 대비 5.59~7.32% 개선된 반면, 주관적 선호가 강하게 작용하는 All_Beauty 도메인에서는 Baseline이 Multimodal 대비 6.40~32.03% 더 우수하였다. Fusion 전략에서는 Cell_Phones에서 Co-Attention이 단순 융합 대비 5.78~7.71% 개선을 보였으나, All_Beauty 중 소규모 데이터셋에서는 Concatenation이 Co-Attention 대비 35.00% 우수하였다. Gamma 파라미터 분석 결과 𝛾 =0.1~0.4 구간에서 가장 안정적이고 우수한 성능을 보였으며, 이는 멀티모달 정보를 보조적 역할로 활용하는 것이 효과적임을 시사한다. 본 연구는 MACRec 프레임워크의 실증 검증이자, LLM 기반 다중 에이전트와 멀티모달 융합을 결합한 추천 시스템 설계 지침을 제공한다는 의의가 있다.
more목차
제 1 장 서론 1
제 1 절 연구의 배경 및 필요성 1
제 2 절 연구 목적 3
제 3 절 논문 구성 4
제 2 장 관련 연구 5
제 1 절 평점예측 추천 시스템 5
제 2 절 에이전트 기반 추천 시스템 6
(1) 각 Agent 역할 8
(가) Manager Agent 8
(나) User/Item Analyst Agent 8
(다) Reflector Agent 8
(라) Searcher Agent 9
(마) Task Interpreter Agent 9
(2) 추천 시나리오 9
(가) Rating Prediction (RP) 10
(나) Sequential Recommendation (SR) 10
(다) Explanation Generation (EG) 11
(라) Conversational Recommendation (CR) 11
제 3 절 멀티모달 추천 시스템 12
(1) 멀티모달 임베딩 14
(가) 텍스트 임베딩: RoBERTa 14
(나) 이미지 임베딩: VGG16 14
(2) Co-Attention Mechanism 15
제 4 절 멀티 에이전트 – 멀티모달 추천 시스템 18
제 3 장 연구 방법 19
제 1 절 CAMRec 기반 Fusion Module 도입 및 설계 19
(1) 멀티모달 임베딩 20
(가) 텍스트 임베딩: RoBERTa 20
(나) 이미지 임베딩: CLIP 20
(2) Co-Attention 기반 Module 20
제 2 절 RP 시나리오에서의 MACRec-Multimodal 융합 프레임워크 22
(1) RP 시나리오에서의 협업 22
(가) Manager Agent 22
(나) User/Item Analyst Agent 23
(2) 전체 추천 프로세스 24
(3) 최종 평점 계산 27
(4) 단계별 처리 과정 27
제 3 절 평가 지표 및 비교 기준 32
(1) 성능 평가 지표 32
(가) Mean Absolute Error (MAE) 32
(나) Root Mean Squared Error (RMSE) 32
(2) 비교 기준 33
(가) Ablation Study 33
(나) Fusion Strategy 34
(다) Gamma(𝛾) Parameter 34
제 4 장 연구 실험 및 결과 35
제 1 절 실험 환경 35
제 2 절 실험 데이터셋 구성 및 분포 분석 36
제 3 절 실험 결과 및 분석 39
(1) 실험 개요 39
(가) Manager Agent 39
(나) Fusion Module 39
(2) 실험 결과 41
(가) Ablation Study 43
(나) Fusion Strategy 46
(다) Gamma(𝛾) 48
(라) 종합적 파라미터 분석 49
제 5 장 결론 및 향후 연구 51
제 1 절 실험 결과 및 시사점 51
제 2 절 향후 연구 방안 53
참고 문헌 55

