검색 상세

대규모 언어 모델 기반 LEET 언어이해 지문 및 객관식 문항 자동 생성 파이프라인

An LLM-Based Pipeline for Automatic Generation of LEET Language Comprehension Passages and Multiple-Choice Questions

초록(요약문)

본 연구는 대규모 언어 모델(LLM)을 활용하여 고차원적 사고력을 측정하는 LEET(법학적성시험) 언어이해 문항을 자동으로 생성하기 위한 멀티에이전트 파 이프라인(Multi-agent Pipeline)을제안한다. 기존의생성모델들은문법적유창성과 사실전달에는능숙하나, 고난도시험문항이요구하는수준높은추론문제생성을 구현하는데에는한계를보여왔다. 이를극복하기위해본연구는실제출제과정을 모사하여기존지문의논리흐름을분석하고대규모언어모델스스로새로운유사 난도의지문생성계획을수립함으로, 고난도의지문을생성할수있는방법론을구 축하였다. 또한문항생성의경우 Hardening Playbook을통해개념간의대립구도와 매력적인오답(Distractor)을체계적으로주입하는절차적생성방법론을구축하였다. 2017년부터 2025년까지의기출데이터를기반으로수행한실험결과, 제안한파이 프라인은단순 Few-shot 생성이나 RAG 기반베이스라인모델대비실제 LEET 언 어이해기출문제와유사한난도의지문과문항을생성하는것을보였다. 특히 8가지 척도로구성된 LLM-as-a-judge평가에서,제안모델은 ’개념밀도및추상성(Concept Density)’과 ’명시적긴장구조(Explicit Tension)’지표에서실제기출문항(Reference) 과 대등하거나더높은수치를기록하여, 단순한정보나열을넘어선입체적이고복 잡한논증구조를성공적으로재현함을입증하였다. 비록생성된텍스트가기계적인 정연함으로인해인간출제특유의유기적비선형적인내용전개는다소미치지못하 였으나,본연구는 LLM이단순한텍스트생성을넘어고등사고력평가도구설계의 강력한보조자(Co-pilot)로서기능할수있음을확인하였다는데의의가있다. Keywords 법학적성시험(LEET), 문항자동생성,대규모언어모델,멀티에이전트시스템

more

초록(요약문)

This study proposes a multi-agent pipeline designed to automatically generate items for the Legal Education Eligibility Test (LEET) Reading Comprehension, a high-stakes exam measuring higher-order thinking skills. While existing Large Lan- guage Model (LLM) generation techniques excel in grammatical fluency and factual delivery, they have demonstrated limitations in implementing the ’structural diffi- culty’ and ’logical tension’ required for high-difficulty assessment items. To overcome this, we established a procedural generation methodology that mimics the actual human question-setting process. This involves designing a logical blueprint for the passage and systematically injecting adversarial relationships between concepts and plausible distractors using a ’Hardening Playbook’. Experimental results based on LEET data from 2017 to 2025 demonstrated that the proposed pipeline significantly outperformed simple Few-shot and RAG-based baselines in terms of structural quality. Notably, in an LLM-as-a-judge evaluation utilizing eight structural metrics, the proposed model achieved scores comparable to or exceeding those of actual exam items (Reference) in ’Concept Density’ and ’Explicit Tension,’ successfully reproducing multi-layered argumentative structures beyond simple information enumeration. Although the generated text slightly fell short of the organic non-linearity characteristic of human authors due to its mechani- cal well-formedness, this study is significant in confirming that LLMs can function as powerful co-pilots for designing higher-order thinking assessment tools, transcending simple text generation. Keywords Legal Education Eligibility Test (LEET), Automated Question Generation, Large Language Models, Multi-agent System, Structural Difficulty

more

목차

1. 서론 1
1.1 연구의필요성 1
1.2 연구의기여 3
1.3 연구의개요 4
2 관련연구 7
2.1 대규모언어모델을활용한QA 데이터셋생성방법론 7
2.2 Agent pipeline을활용한 downstream task adaptation 기법 9
3 방법론 12
3.1 파이프라인개요 12
3.2 Step 1: LEET 언어이해지문생성 14
3.2.1 지문주제후보및검색쿼리생성 14
3.2.2 문서검색및검색문서전처리 15
3.2.3 지문생성계획수립 18
3.2.4 지문생성단계 21
3.3 Step 2: LEET 언어이해문항생성 24
3.3.1 기출문항선지별난도및함정유형분석 25
3.3.2 문항설계계획수립 28
3.3.3 문항설계도를활용한문항생성 33
3.4 Step 3: 생성지문및문항세부조정 37
3.4.1 Part 1: 생성지문세부조정 37
3.4.2 Part 2: 생성문항세부조정 38
4 실험 41
4.1 실험환경 42
4.1.1 데이터셋 42
4.1.2 모델설정 43
4.1.3 평가방법 44
4.1.4 비교방법론및 Ablation 설정 49
4.1.5 생성실험규모 49
4.2 LLM-as-a-judge 기반정량평가결과 50
4.3 정성적분석결과 53
4.3.1 지문의논증구조: 정보의나열대변증법적긴장 54
4.3.2 문항설계: 국소적일치대관점의재구성 54
4.3.3 오답선택지의매력도(Distractor Plausibility) 55
4.3.4 종합평가 55
5 결론및향후연구 56
5.1 연구요약 56
5.2 한계점 57
5.3 향후연구방향 58
A 생성지문주제데이터베이스예시 60
A.1 생성지문주제데이터베이스예시 60
B 정성적분석대상문항전문 61
B.1 제안방법생성결과 (Proposed Pipeline) 61
B.2 기출문항원본 (Reference) 64
B.3 단순 Few-shot 생성결과 (Baseline) 67
Bibliography 69

more