검색 상세

한국어 말하기 평가 시험 자동 채점을 위한 GPT-4 프롬프트 엔지니어링 기법 연구

GPT-4 Prompt Engineering for Automated Korean Speaking Test Scoring

초록

이 연구에서는 Large Language Model(LLM)의 대표격인 GPT-4를 한국어 말하기 평가의 개방 응답형 문항 (open-response items)의 자동 채점 (Automated Scoring)에 적용할 수 있도록 하는 프롬프트 엔지니어링 방법론을 제안한다. 말하기나 작문 시험의 개방 응답형 문항은 일반적으로 정해진 정답이 없고 평가를 위한 등급별 평가 기준(Rubric)만 채점자에게 주어진다. 다만 채점을 오로지 채점자의 판단에 맡겨야 한다는 점에서 공정한 평가를 담보할 수 있을 만큼 숙련된 채점자를 확보하기 어렵고, 응시자가 대규모일 때 채점에 인력과 시간이 많이 소요된다는 점이 고질적인 제약 사항으로 손꼽힌다. 이러한 한계를 극복하기 위한 대안으로써 인공지능 모델을 활용한 자동 채점이 자연어 처리 연구의 주요 주제 중 하나로 자리 잡았다. 그러나 기존의 딥러닝·머신러닝 기반 채점 모델 연구는 사람이 채점한 점수가 레이블링 된 대규모 훈련 데이터가 필요하다는 점에서 여전히 인간 채점자의 노력을 필요로 했다. 이 가운데 최근에는 LLM의 제로샷·퓨샷 (Zero/Few-shot) 성능에 기대어 충분한 양의 훈련 데이터 없이도 프롬프트 엔지니어링 만으로 자동 채점을 할 수 있는 방법이 시도되고 있다. 다만 기존 연구는 영어 작문 응답을 중심으로 한 연구가 많으며, 국내에서의 연구 역시 한국어 원어민의 작문 수준 평가에 연구 범위를 한정하고 있다. 이 연구는 기존 연구에서 시도하지 않았던 한국어 말하기 평가 시험을 위한 GPT-4 프롬프트를 연구함으로써 기존 연구와의 차별화를 꾀한다. 특히 다국어 모델이지만 영어 텍스트에 대해 주로 훈련된 GPT-4가 발음 오류가 섞인 비원어민의 한국어 발화 전사 텍스트만 보고도 응답 내용을 이해하고 (사용된 어휘나 문법을 탐지하여) 능숙도 등급을 매길 수 있도록 하는 최적의 프롬프트 엔지니어링 기법을 모색한다. 이 논문에서 제안한 프롬프트로 테스트셋에서 샘플링 한 60개 샘플에 대해 4개 등급으로 분류하도록 실험한 결과, 인간 채점자가 레이블링한 점수 대비 Accuracy와 Weighted F1 점수가 각각 0.7167, 0.7134로 각각 베이스라인 프롬프트 대비 0.2가량 향상된 채점 성능을 나타냈다.

more

초록

This paper proposes a methodology for prompt engineering to apply GPT4, one of the Large Langauge Model (LLM), to the automated scoring of open-response items for the Korean language speaking proficiency test. Since there are no fixed answers for open-response items, scorers generally are provided only with scoring rubrics for each calibration. This means the evaluation of responses usually depends on the scorer’s judgment while training skilled scorers who can ensure fair evaluation is considered a challenge. Not only that, the evaluation of open-response items require a huge human labor and time, which is one of the major limitations of human evaluation. To handle these limitations AI-based automated scoring becomes one of the major fields in Natural Language Processing. However, the previous automated scoring studies which are based on Deep Learning and Machine Learning models still require human efforts to secure sufficiently large training data with human-labeled scores. Recently, LLMs have begun to be applied to the automated scoring of open-response items without large-scale of human-labeled training data thanks to their Zero/Few-shot abilities. Nevertheless, most of the previous studies only explored the evaluation ability of LLM for written responses to English essays. The Korean domestic studies also limited the scope of research to evaluating Korean native written responses. This paper challenges to be distinguished from the existing studies, exploring the optimal GPT-4 prompt to apply GPT-4 to the scoring spoken Korean language of non-native speakers. To be specific, this paper aims to develop a method for prompt engineering to handle GPT-4 not only to understand transcripts of non-native Korean speech which include pronunciation errors but also to calibrate the proficiency scores. The experimental result for the 60 samples from the test set shows that the proposed prompt achieves 0.7167 accuracy and 0.7134 Weighted F1-score which are improved than the baseline prompt in rating 4-class scores.

more

목차

제 1 장 서론 5
1.1 대규모언어모델 기반 한국어 말하기 자동 채점 연구의 필요성 5
1.2 연구 목표와 기여점 7
제 2 장 관련 연구 10
2.1 GPT-4 10
2.2 프롬프트 엔지니어링 방법론 11
2.2.1 프롬프트 엔지니어링 개요 11
2.2.2 Chain-of-Thought를 활용한 프롬프트 엔지니어링 12
2.2.3 시스템 인스트럭션을 이용한 프롬프트 엔지니어링 방법론 15
2.2.4 도메인 관련 지식을 추가하는 프롬프트 엔지니어링 16
2.2.5 LLM 활용 텍스트 평가용 프롬프트 엔지니어링 16
2.3 AI 기반 자동 채점 선행 연구 18
제 3 장 비원어민 한국어 말하기 응답 자동 채점을 위한 프롬프트 엔지니어링 20
3.1 GPT-4를 이용하는 자동 채점 태스크 20
3.2 기초적인 프롬프트 엔지니어링을 이용한 베이스라인 프롬프트 구축 23
3.2.1 베이스라인 프롬프트 템플릿 구성 23
3.2.2 베이스라인 프롬프트를 활용한 사전 실험 26
3.3 비원어민 한국어 발화의 특성과 Chain-of-Thought를 반영한 한국어 말하기 자동 채점 프롬프트 엔지니어링 29
3.3.1 태스크 관련 지식을 활용한 자동 채점 프롬프트 엔지니어링 30
3.3.2 Manual CoT를 활용한 자동 채점 프롬프트 엔지니어링 33
3.3.3 시스템 인스트럭션을 활용한 자동 채점 프롬프트 엔지니어링 33
3.3.4 하이브리드형 자동 채점 프롬프트 엔지니어링 36
제 4 장 실험 결과 39
4.1 데이터셋 39
4.1.1 원본 데이터셋 구성 39
4.1.2 실험 대상 문항별 응답 데이터셋 구성 40
4.2 GPT-4 기반 자동 채점 시스템 구축 방법 41
4.2.1 사용 모델 및 프레임워크 41
4.2.2 GPT-4 하이퍼파라미터 41
4.3 테스트셋에 대한 실험 결과 분석 42
4.3.1 성능 평가 지표 42
4.3.2 제안 방법의 자동 채점 성능 43
4.3.3 채점 오류 샘플 정성적 분석 48
제 5 장 결론 54
참고문헌 56

more