FOMC Press Conference 분석을 위한 대규모 언어 모델(LLM)의 선호도 학습 연구 : 직접 선호 최적화(DPO)와 그룹 상대 정책 최적화(GRPO) 적용을 중심으로
A Study on Preference Learning of Large Language Models(LLM) for FOMC Press Conference Analysis : Focusing on the Application of Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO)
- 주제어 (키워드) 대규모 언어 모델 , 파인튜닝 , 직접 선호 최적화 , 그룹 상대 최적화 , Large Language Models(LLM) , Fine-Tuning , Direct Preference Optimization(DPO) , Group Relative Policy Optimization(GRPO)
- 발행기관 서강대학교 일반대학원
- 지도교수 김재호
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 경제학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000081988
- UCI I804:11029-000000081988
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 논문은 미국 연방공개시장위원회(FOMC) 기자회견(Press Conference)에서 의장 발언을 기반으로 향후 경제 정책 기조를 예측하는 대규모 언어 모델(LLM) 개발을 목표로, 직접 선호 최적화(DPO)와 그룹 상대 정책 최적화(GRPO)를 적용하는 방안을 연구한다. 연방공개시장위원회의 기자회견에서 의장의 의사문, 기자 질의, 의장 답변 데이터를 수집하여 LLM으로 경제 논리와 관련된 핵심 개념을 추출한다. 이를 바탕으로 AI의 응답을 생성하고, 생성된 각 AI 응답을 hawkish, dovish, neutral로 분류하여 해당 레이블을 부여한다. 이를 DPO 및 GRPO 학습을 위한 데이터로 활용한다. 이 데이터를 사용하여 Qwen2.5 모델을 파인튜닝(Fine-Tuning)하여, 연방공개시장위원회의 의장의 선호도를 학습한 모델 개발을 목표로 한다. 본 연구는 대규모 언어 모델에 직접 선호 최적화 및 그룹 상대 정책 최적화의 강화학습 훈련 방식을 시도하여, 연방공개시장위원회의 기자회견으로 대표되는 금융 분야의 복잡한 텍스트 분석 및 정책 기조 예측 모방에 적용해 본 초기 시도로서 의의를 지닌다. 이를 통해 해당 분야에서 LLM과 선호도 학습 방법론의 발전 가능성을 모색하고 향후 연구의 기초를 마련하고자 한다.
more초록 (요약문)
This paper aims to develop a Large Language Model (LLM) that predicts future economic policy stances based on the Chair's remarks at U.S. Federal Open Market Committee (FOMC) press conferences. It investigates the application of Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO). Data, including the Chair's statements, reporters' questions, and the Chair's answers, are collected from FOMC press conferences, and an LLM is used to extract key concepts related to economic logic. Based on this, AI responses are generated, and each generated AI response is classified and labeled as hawkish, dovish, or neutral. This labeled data is then utilized for DPO and GRPO training. Using this data, the Qwen2.5 model is fine-tuned with the goal of developing a model that learns the preferences (policy stance) of the FOMC Chair. This study is significant as an initial attempt to apply reinforcement learning training methods like DPO and GRPO to LLMs for complex text analysis and policy stance prediction in the financial domain, as exemplified by FOMC press conferences. Through this, it seeks to explore the potential for advancing LLMs and preference learning methodologies in this field and aims to lay the groundwork for future research.
more목차
초록 1
1. 서론 3
2. 선행연구 5
3. 분석자료 6
3-1. 데이터수집 6
3-2. 인사이트 생성 7
3-3. 대규모 언어 모델 답변 생성 8
3-4. 정책적 성향 레이블링 9
4. 방법론 11
4-1. 사용 모델 11
4-2. 직접 선호 최적화 (DPO) 훈련 11
4-3. 그룹 상대 정책 최적화 (GRPO) 훈련 12
5. 분석결과 13
5-1. 모델 성능 비교 13
5-2. 결과 분석 및 논의 14
6. 결론 및 제언 16
6-1. 결론 16
6-2. 향후 연구 제언 16
참고문헌 18

