검색 상세

트랜스포머 인코더 기반 한국어 말하기 평가 개방형 문항 자동 채점 시스템

Transformer Encoder-Based Automated Scoring System for Open-Ended Questions in Korean Speaking Assessment

초록 (요약문)

한국어 말하기 평가는 응답에 제한이 없는 개방형 문항(open-ended questions)으로 이루어져 있다. 개방형 문항에는 답이 정해져 있지 않기 때문에 응답과 질문 간의 내용 연관성에 해당하는 '내용' 점수가 요소로 사용된다. 또한, 답변에서의 적절한 언어 사용의 평가를 위한 '언어 사용' 점수가 평가 요소로 사용되며 답변자의 발음과 유창성을 평가하기 위해서는 '전달력'이 평가 요소로 사용된다. 따라서 '내용', '언어 사용', '전달력' 총 세 가지의 평가 요소가 사용된다. 최근까지 말하기 자동 채점에 대한 많은 연구가 있었으나 영어 학습자를 대상으로 한 국외 연구가 대부분인 실정이다. 더욱이 한국어 말하기 자동채점은 발음에 중점을 두거나 평가 요소 중 일부에 국한된 연구라는 한계를 갖는다. 따라서 본 논문에서는 한국어 말하기 자동 채점의 세 가지 평가요소 모두를 예측할 수 있는 모델을 제안한다. 이를 위해 에세이 자동평가에서 높은 성능을 보이는 Transformer encoder를 사용했다. 제안된 모델은 에세이 평가와 유사한 특성을 지닌 말하기 평가 요소인 '내용'과 '언어사용' 점수를 예측하기 위해 문항과 답변을 음성인식한 결과를 Transformer encoder의 입력으로 사용한다. '전달력'은 두 가지의 다른 음성인식기 인식 결과를 모두 Transformer encoder의 입력으로 사용하여 예측한다. 또한, 한국어 말하기 자동 채점을 위해서는 응답 발화에 대한 음성인식이 필요하다. 하지만 일반적인 한국어 음성인식기는 비원어민 화자의 한국어 발화에 대해 낮은 성능을 보이기에 본 논문에서는 비원어민의 한국어 발화에 대한 성능을 높이기 위해 Conformer 기반 음성인식 모델을 학습하여 사용한다. 현존하는 대규모언어모델 중 최상위 성능을 보이는 GPT-4-Turbo의 프롬프트 엔지니어링 기법을 사용하여 성능을 비교한 결과, 제안한 Transformer encoder 기반 모델이 더 높은 성능을 보였으며, 개선시킨 음성인식 결과를 적용한 실험에서 '내용' 점수에 대해 QWK 0.77, PCC 0.79, '언어 사용' 점수에 대해 QWK 0.78, PCC 0.79의 성능을 보였다. 본 논문은 '전달력' 자동 채점을 위해 앞서 학습한 한국어 비원어민에 적합한 Conformer 기반 음향 모델과 한국어 원어민에 적합한 Conformer 기반 음향 모델, 총 두 가지 모델의 인식 결과를 활용한다. 두 모델에 학습된 데이터의 발음 차이로 인해 특정 발음에 학습되는 출력 토큰이 달라지므로, 두 음향 모델의 인식 결과의 차이에서 한국인과 비원어민의 발음 차이 정보가 포함된다고 가정한다. 이 연구는 발음 차이와 언어 정보를 동시에 활용하기 위해 두 가지 인식 결과를 Transformer encoder 기반 모델에 입력으로 사용함으로써 기존 연구와 차별성을 둔다. '전달력' 점수에 대해 QWK 0.66, PCC 0.68의 성능을 보였다.

more

초록 (요약문)

A Korean speaking assessment consists of open-ended questions that can be answered without restriction. Since these questions do not have predetermined correct answers, it is necessary to assess the relevance of the content, appropriate language use, and pronunciation in the responses. Therefore, the rubric for most speaking assessments includes criteria such as 'Topic Relevance,' 'Language use,' and 'Delivery.' Previous studies on Automated Speaking Assessment(ASA) have mostly focused on non-native English speakers. Additionally, recent studies on Korean speaking assessments mainly focus on pronunciation or specific assessment criteria. In this thesis, it is proposed that a Transformer encoder-based automated scoring system for Korean speaking assessments be capable of predicting scores for all evaluation criteria. Transformer encoders have demonstrated high performance in Automated Essay Scoring(AES). In Korean speaking assessments, the 'Topic Relevance' and 'Language Use' criteria exhibit similar characteristics to those in essay evaluation. Therefore, this thesis uses questions and answers as inputs to the Transformer encoder to predict scores for various question types. Automatic Speech Recognition(ASR) is crucial for the automated scoring of Topic Relevance' and Language Use.'However, ASR systems that perform well with non-native Korean speakers have not been reported. Therefore, in this paper, a Conformer-based ASR model is trained and utilized for non-native Korean speech. The proposed Transformer encoder-based model achieved superior performance compared to GPT-4-Turbo, one of the highest-performing large language models, using prompt engineering techniques. In experiments with improved speech recognition, the model achieved QWK 0.77 and PCC 0.79 for 'Topic Relevance' and QWK 0.78 and PCC 0.79 for 'Language Use.' For 'Delivery,' two Conformer-based acoustic models were employed: one for non-native speakers and another for native speakers. Pronunciation differences in the data trained by the two models result in different output tokens for certain pronunciations. This difference in recognition results is assumed to contain information about pronunciation differences between native and non-native Korean speakers. Both recognition results are used as inputs to the Transformer encoder model, simultaneously utilizing pronunciation and language information, which distinguishes this approach from previous research. The model achieved QWK 0.66 and PCC 0.68 for 'Delivery'

more

목차

제 1 장 서론 3
1.1 한국어 말하기 자동 채점 연구의 필요성 3
1.2 연구의 기여점 5
제 2 장 관련 연구 7
2.1 Hand-crafted feature 기반 자동 채점 시스템 8
2.2 End-to-end 기반 자동 채점 시스템 13
2.2.1 Transformer Encoder 기반 자동 채점 시스템 13
2.2.2 Tranformer Decoder 기반 자동 채점 시스템 16
2.3 자동 채점 시스템을 위한 음성인식 모델 19
2.3.1 Whisper 20
2.3.2 Conformer 21
제 3 장 트랜스포머 인코더 기반 한국어 말하기 평가 자동 채점 시스템 22
3.1 내용 점수 예측 모델과 언어 사용 점수 예측 모델 23
3.2 전달력 점수 예측 모델 28
3.3 한국어 말하기 자동 채점을 위한 음성인식 모델 30
제 4 장 실험 및 결과 32
4.1 말하기 평가 데이터셋 32
4.2 성능 평가 지표 35
4.2.1 Character Error Rate (CER) 35
4.2.2 Quadratic Weighted Kappa (QWK) 35
4.2.3 Pearson Correlation Coefficient (PCC) 36
4.3 한국어 말하기 자동 채점을 위한 음성인식 모델 37
4.3.1 학습 데이터 37
4.3.2 실험 방법 및 성능 비교 37
4.4 내용과 언어 사용 자동 채점 38
4.4.1 실험 방법 38
4.4.2 실험 결과 및 분석 42
4.5 전달력 자동 채점 46
4.5.1 실험 방법 46
4.5.2 실험 결과 및 분석 51
제 5 장 결론 56
참고문헌 57

more