LLM을 활용한 대학 강의평가 서술형 문항 응답 분석 및 적용 연구
- 주제(키워드) 서술형 강의평가 , 대규모 언어모델(LLM) , ChatGPT API , 분류 모형 , 감정 분석 , 교육 데이터 분석
- 발행기관 서강대학교 교육대학원
- 지도교수 이예경
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 교육대학원 AI융합 교육설계·경영
- 실제URI http://www.dcollection.net/handler/sogang/000000082845
- UCI I804:11029-000000082845
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
본 연구는 대규모 언어모델(LLM) 중 ChatGPT API를 활용하여 대학 강의평가 서술형 문항 응답을 분류하는 모형을 설계하였다. 연구 대상은 수도권 소재 4년제 A대학교의 2024학년도 1, 2학기 강의평가 자료이며, 전체 응답은 학기 별로 약 5만 건이었으나 서술형 문항은 선택적 응답 방식이므로 실제 응답률은 전체 응답 중 약 26% 수준이었다. 수집된 자료는 데이터 전처리와 문장 분리 과정을 거쳐 정제하였으며, 수천 문장 규모의 연구자 라벨링 데이터와 약 100개의 few-shot 문장을 기반으로 감정(sentiment)과 영역(area)을 분류하는 LLM 기반 분류 모형을 구축하였다. 모형 성능 평가는 정확도(Accuracy)와 Macro F1-score를 활용하였다. 연구 결과, 첫째 감정 분류와 영역 분류 모두 약 0.9의 높은 정확도를 보였다. 둘째 감정 분류의 Macro F1-score는 0.728로 비교적 우수한 반면, 영역 분류는 0.597로 다소 낮아 영역 간 경계의 모호성이 성능 저하 요인임을 확인하였다. 셋째 개발된 모형을 활용해 2024학년도 2학기 자료 전체를 분석한 결과, 교수자와 전반적 평가 영역에서는 긍정 응답 비율이 각각 95.1%, 80.0%로 높게 나타났으며, 시설 및 행정(87.8%), 수업운영(84.8%), 평가(82.5%), 수업설계(58.5%) 영역에서는 부정 응답이 우세한 양상이 확인되었다. 이를 통해 학생들은 교수자에 대해서는 긍정적으로 평가하는 경향을 보이지만, 수업 운영과 평가 방식 등 구체적 학습 경험에서는 불만을 명확히 제시하는 이중적 특성을 나타냄을 알 수 있었다. 본 연구는 LLM을 활용한 강의평가 서술형 문항 응답 분석의 실질적 가능성을 제시하였으며, 이를 교육 현장에 적용하기 위해 데이터 수집의 명확성 확보, 강의평가 시스템 개선, ChatGPT API 활용을 위한 예산 편성 등의 제도적 지원 필요성을 제안한다. 본 연구 결과는 향후 대학의 서술형 강의평가 데이터 분석 및 수업 개선 과정에서 유용한 기초 자료로 활용될 수 있을 것이다.
more초록(요약문)
This study designed a classification model for open-ended student evaluation of teaching (SET) responses at the university level by utilizing the ChatGPT API, a large language model (LLM). The research data consisted of course evaluation responses collected during the first and second semesters of the 2024 academic year at a four-year university (University A) located in the Seoul metropolitan area. Although approximately 50,000 evaluation responses were collected per semester, the open-ended items were optional, resulting in an actual response rate of approximately 26% of the total responses. After data preprocessing and sentence segmentation, the refined dataset was used to construct an LLM-based classification model that predicts sentiment and evaluation areas, based on several thousand researcher-labeled sentences and approximately 100 few-shot examples. Model performance was evaluated using accuracy and macro F1-score. The results indicated that both sentiment classification and area classification achieved high accuracy levels of approximately 0.9. The macro F1-score for sentiment classification was relatively high at 0.728, whereas the area classification macro F1-score was lower at 0.597, reflecting performance degradation caused by ambiguity at the boundaries between evaluation areas. When the developed model was applied to predict the entire dataset from the second semester of the 2024 academic year, positive response rates were notably high in the instructor-related (95.1%) and overall evaluation (80.0%) areas. In contrast, negative responses were predominant in the areas of facilities and administration (87.8%), course operation (84.8%), assessment (82.5%), and course design (58.5%). These findings suggest that while students tend to evaluate instructors positively, they express clearer dissatisfaction regarding concrete aspects of their learning experiences, such as course operation and assessment methods, revealing a dual evaluative tendency. This study demonstrates the practical feasibility of applying LLM-based approaches to the analysis of open-ended course evaluation responses and highlights the need for institutional support, including clearer data collection guidelines, improvements to course evaluation systems, and budget allocation for the use of the ChatGPT API. The findings provide foundational evidence for the future analysis of open-ended SET data and the enhancement of teaching quality in higher education.
more목차
Ⅰ. 서론 1
1. 연구의 필요성 및 목적 1
2. 연구문제 3
Ⅱ. 이론적 배경 4
1. 강의평가의 특성 4
1.1. 강의평가의 역할 및 구성 요소 4
1.2. 강의평가의 한계 6
2. 강의평가 서술형 문항 응답의 특성 및 분석 9
2.1. 강의평가 서술형 문항 응답 분석 9
2.2. 강의평가 서술형 문항 응답의 자동화 분석 11
Ⅲ. 연구방법 14
1. 분석 대상 14
2. 연구 절차 16
2.1 데이터 전처리 17
2.2. 서술형 응답 분류 체계 설정 20
2.3. 수동 라벨링 23
2.4. LLM 기반 분류 모형 구축 24
2.5. 성능 평가 29
2.6. 오류 유형 분석에 기반한 LLM 분류 모형의 고도화 30
3. 분석도구 34
Ⅳ. 연구 결과 37
1. 강의평가 서술형 문항 응답 분류 모형의 성능 및 라벨 일관성 37
2. LLM 기반 분류 결과를 활용한 강의평가 서술형 문항 응답 경향 분석 39
Ⅴ. 논의 및 결론 50
1. 요약 50
2. 논의 51
3. 제언 53
참고문헌 55

