검색 상세

거대 언어 모델에서 한국어 고난도 수학 문제 성능 향상을 위한 CoT ㆍPAL 통합형 프롬프트 엔지니어링

Prompt Engineering Using Both CoT and PAL For Improving the Performance of Advanced Korean Math Problems in Large Language Models

초록 (요약문)

최근 다양한 거대 언어 모델(Large Language Model, LLM)이 개발되었으나, 수학 추론 영역은 모델 성능만으로는 평가가 어려운 분야로 남아 있다. 특히, 수학 추론은 LLM이 높은 성능을 발휘하기 힘든 영역으로, 이를 해결하기 위해 Chain of Thought, Program-Aided Language Models, ToRA 등의 프롬프트 기반 방법론이 발전해왔다. 그러나 이러한 프롬프트 기법들은 대부분 영어로 개발되고 평가되어, 한국어 문제에 그대로 적용하기에는 한계가 있다. 본 연구에서는 한국어 수학 문제 해결을 위한 프롬프트 엔지니어링 기법의 개발 및 그 유효성을 검증하는 것을 목적으로 하였다. 기존의 프롬프트 엔지니어링 기법을 토대로 반복 프롬프트 개발 프로세스를 통해 한국어 수학 문제에 적합한 최적의 프롬프트를 설계하였다. 그리고 이를 KMMLU의 MATH 데이터셋을 활용하여 고난도의 수학 문제를 대상으로 프롬프트의 성능을 평가하였다. 실험 결과, 개발된 프롬프트는 GPT-4o, GPT-4, GPT-3.5-Turbo, HyperClova X 등 다양한 모델에서 성능 향상을 보였으며, 특히 GPT-4 모델에서는 94.4%의 성능 향상을 확인하였다. 이러한 결과는 프롬프트 엔지니어링 기법이 한국어 수학 문제 해결에 효과적임을 입증하며, 한국어 프롬프트 연구 및 교육 현장에서의 실제 적용 가능성을 제시한다. 본 연구는 향후 수학 뿐 아니라 다양한 한국어 기반 학습 문제 해결에서 언어 모델의 성능을 향상시키는 데 기여할 것으로 기대된다.

more

초록 (요약문)

Recently, various Large Language Models (LLMs) have been developed; however, the field of mathematical reasoning remains challenging to evaluate solely based on model performance. Mathematical reasoning is particularly difficult for LLMs to perform at a high level. To address this, prompt-based methodologies such as Chain of Thought, Program-Aided Language Models, and ToRA have been developed. However, these prompt techniques have mostly been developed and evaluated in English, which presents limitations when directly applied to Korean problems. This study aims to develop and validate prompt engineering techniques for solving Korean mathematical problems. Based on existing prompt engineering techniques, we designed optimal prompts suitable for Korean mathematical problems through an iterative prompt development process. We then evaluated the performance of these prompts on high- difficulty math problems using the MATH dataset from KMMLU. The experimental results showed performance improvements across various models, including GPT-4o, GPT-4, GPT-3.5-Turbo, and HyperClova X, with a notable 94.4% performance improvement observed in the GPT-4 model. These results demonstrate the effectiveness of prompt engineering techniques in solving Korean mathematical problems and suggest the potential for practical application in Korean prompt research and education. This study is expected to contribute to improving the performance of language models in solving not only mathematical problems but also various Korean-based learning tasks in the future.

more

목차

제 1 장 서론 1
제 1 절 연구 배경 및 목적 1
제 2 절 연구 내용 2
제 3 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 프롬프트 엔지니어링에 관한 연구 4
제 2 절 수학 추론 성능을 평가하기 위한 데이터셋 6
제 3 장 한국어 수학 문제 추론을 위한 COTㆍPAL 통합형 프롬프트 개발 7
제 1 절 반복 프롬프트 개발 프로세스 7
제 2 절 개발용 데이터셋과 모델 소개 9
제 3 절 기존 ToRA 프롬프트 분석 및 적용 10
제 4 절 한국어 번역 프롬프트 사용 아이디어 12
제 5 절 Cross-Lingual-Thought 적용 아이디어 14
제 6 절 강력한 규제(Guideline) 추가 16
제 7 절 한국어 수학 문제 추론을 위한 CoT ㆍPAL 통합형 프롬프트 18
제 4 장 실험 및 분석 22
제 1 절 실험 데이터 22
제 2 절 실험 방법 24
제 3 절 실험 결과 및 분석 28
제 5 장 결 론 및 향후 연구 33
제 1절 결론 33
제 2절 한계 및 향후 연구 34
참고 문헌 36

more