검색 상세

LangGraph 기반 한국어 쓰기 문제 생성 및 채점 챗봇

A Chatbot Using LangGraph For Generating Korean Writing Questions And Evaluating Answers

초록 (요약문)

본 연구는 대형언어모델(LLM)과 프롬프트 엔지니어링을 활용하여, 한국어 쓰기 문제 생성과 답안 채점 기능을 통합한 LangGraph 기반 챗봇을 구축하는 것을 목표로 한다. 근래 대형언어모델을 활용한 언어 학습 도구들이 활발히 개발되고 있으나, 한국어 학습 지원 도구는 다른 주요 언어에 비해 상대적으로 부족한 편이다. 특히 한국어능력시험(TOPIK)과 같은 공인 시험을 대비할 수 있는 애플리케이션은 거의 전무한 실정이다. 최근 한국어 학습 수요와 TOPIK 응시자 수가 증가하는 추세를 고려할 때, 보다 정교한 자동 평가 도구의 필요성이 제기되고 있다. 기존 한국어 작문 자동 채점 연구들은 주로 어휘 수, 문장 길이, 문법 오류 등 표면적 특징을 정량화하여 점수를 예측하는 데 집중해 왔다. 이에 본 연구는 정성적 평가 기준까지 포함하여 채점할 수 있는 GPT 기반 자동 채점 모델을 구축하고, 채점자의 사고 흐름을 모사할 수 있도록 프롬프트를 구조화하였다. 채점 기준은 국립국어원이 제공하는 글쓰기 말뭉치와 기준표를 기반으로 재구성되었으며, 추상적인 표현들이 실제 글의 어떤 특징과 연결되는지를 분석해 GPT가 이해할 수 있는 지시문으로 전환하였다. 또한 채점 절차를 단계화하고 감점 요소 중심의 규칙을 명시하여, GPT의 관대한 경향을 보완하였다. 실험 결과, 프롬프트 기반 모델은 QWK 0.59를 기록하였고, 파인튜닝을 통해 QWK 0.70에 도달하였다. 문제 생성 모델은 TOPIK 유형별 특징을 반영한 Few-shot CoT 프롬프트를 활용하여 논설문과 문장 완성형 각 10문항을 생성하였으며, 한국어 교육 전문가 검토를 통해 유사성을 확인하였다. 본 연구는 문제 생성, 자동 채점, 질의응답 기능을 통합한 LangGraph 기반 멀티에이전트 챗봇 애플리케이션을 구현함으로써, 한국어 쓰기 학습 도구로서의 실용성과 확장 가능성을 제시한다.

more

초록 (요약문)

This study aims to develop a LangGraph-based multi-agent chatbot that generates Korean writing questions and evaluates responses using large language models (LLMs) and prompt engineering. While LLM-based language learning tools have advanced in recent years, Korean learning support tools remain limited, particularly for official tests like the Test of Proficiency in Korean (TOPIK). Previous studies have primarily focused on score prediction using surface-level quantitative features such as word count and sentence length. In contrast, this study proposes a GPT-based scoring model that integrates qualitative criteria and emulates human raters’ reasoning through structured prompts. The rubric—based on the corpus and evaluation guidelines from the National Institute of the Korean Language—was restructured by mapping vague descriptors to specific textual features and rewriting them as explicit instructions interpretable by GPT. The scoring process was modularized into sequential steps, with penalty rules added to address GPT’s leniency. The model achieved a QWK of 0.59 with prompt-based scoring and 0.70 after fine-tuning. For question generation, GPT with Few-shot Chain-of-Thought prompting was used to generate task-specific items, which were reviewed by instructors for validity. This study demonstrates the feasibility of a LangGraph-based chatbot integrating generation, scoring, and feedback, offering a scalable tool for Korean writing instruction.

more

목차

제 1장 연구 배경 및 내용 1
제 2장 관련 연구 4
제 1절 한국어 글쓰기 채점 말뭉치 4
제 2절 프롬프트 엔지니어링 6
제 3절 LangGraph 9
제 3장 LangGraph 기반 TOPIK 채점 및 문제 생성 챗봇 구축 11
제 1절 채점 기준 11
제 2절 채점 모델 성능 평가 방법 15
제 3절 채점 모델 프롬프트 17
제 4절 문제 생성 모델 프롬프트 19
제 5절 LangGraph 기반 챗봇 22
제 4장 실험 및 분석 25
제 1절 데이터 전처리 25
제 2절 채점 모델 26
제 3절 문제 생성 모델 41
제 4절 LangGraph 기반 챗봇 44
제 5장 결론 45
참고문헌 46

more