자연어처리를 위한 중국어 복합방향보어 구문의 데이터화 연구
A Study on Datafication of Chinese Directional Complement Construction for NLP
- 주제어 (키워드) 자연어처리 , 복합방향보어 , 구문문법 , 데이터셋 , BERT , Fine-Tuning , Natural Language Processing , Compound Directional Complement , Construction Grammar , Dataset , BERT , Fine-Tuning
- 발행기관 서강대학교 일반대학원
- 지도교수 강병규
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 일반대학원 중국문화학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000070127
- UCI I804:11029-000000070127
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구의 목적은 언어의 형식, 의미상의 특징을 고려한 구문 데이터셋을 구축하여 자연어처리 분야에 활용하는 데 있다. 현재 자연어처리 영역에서 사용되는 데이터셋은 주로 대량의 코퍼스 구축에 초점이 맞추어져 있고, 이와 같은 데이터셋을 학습한 언어 모델은 구문을 적절히 처리하지 못한다. 본고는 구문문법을 기반으로 한 데이터셋 구축 과정을 기술하고, 실제 자연어처리 언어 모델을 이용한 실험을 통해 구축된 데이터셋의 실효성을 밝히고자 하였다. 본고에서 연구 대상으로 삼은 것은 중국어의 복합방향보어 구문이다. 복합방향보어 구문은 그 의미가 풍부하고 다양하지만, 구문 중 일부는 특정 분야의 코퍼스에만 출현하여 언어 모델에 주어지는 일반적인 코퍼스로는 충분히 학습되기 어렵다. 본고는 BCC 코퍼스, CCL 코퍼스, 구어체 코퍼스의 다양한 영역으로부터 구문 데이터를 추출하고, 이를 언어 모델이 학습할 수 있는 형태로 가공하여 약 25만 문장의 복합방향보어 구문 데이터셋을 구축하였다. 원형 데이터로부터 구문 후보를 추출하고, 이를 분석, 가공하여 구문 데이터셋을 구축하는 과정과 해당 데이터셋을 이용한 자연어처리 실험 결과가 본문에 기술되어 있다. 2장에서는 구문 데이터셋을 구축하기에 앞서 해당 데이터셋이 포함해야 하는 구문의 정보에 대해 정리하였다. 특히 각 복합방향보어 구문의 형식 및 의미상의 특징에 대해 분석하였다. 본고에서 정의한 복합방향보어 구문은 크게 여섯 가지의 형식으로 나타나고, 네 가지의 의미 특징을 지니고 있으며, 각 구문은 문장에 방향적, 이동적 색채를 더하거나 결과상, 완성상, 기동상, 지속상을 표현하는 등 다양한 상적 기능을 수행한다. 3장에서는 구문의 형식을 기준으로 구문 검색 및 추출 방안을 제안하고, 세 원형 코퍼스로부터 실제 구문 데이터셋을 구축하는 과정을 기술하였다. 데이터셋 구축 과정은 코퍼스별로 1, 2차 추출 과정을 나누어 다양한 형식과 의미의 구문이 포함될 수 있도록 구성하였다. 1차 추출 부분에서는 검색식을 네 가지로 나누어 구문의 다양한 형식을 고려한 예문 추출 과정을 기술하고, 2차 추출 부분에서는 품사 태깅 프로그램등을 이용하여 추출된 문장 중 실제 구문 문장 데이터만을 선별하고 가공하는 방법에 대해 다루었다. 4장에서는 추출 방안을 통해 실제 구축된 구문 데이터셋의 정량화 데이터, 구성 정보, 분포적 특징 등에 대해 다루었다. 아울러 데이터셋 중 보어별, 유형별 구문의 비율 등 통계 분석 결과와 구문 구성 보어별 빈출 결합 동사 정보에 대한 분석 결과를 기술하였다. 분석 결과, 구문의 다양한 의미, 형식 정보가 구문 데이터셋에 적절히 포함되었음이 검증되었다. 5장에서는 두 종류의 BERT 모델을 활용하여 실제 구축된 구문 데이터셋의 실효성을 확인하는 실험을 진행하였다. 해당 모델에 본고에서 구축한 데이터셋을 학습시키고 테스트를 진행한 결과, 학습 이전 모델보다 정확도, 정밀도, 재현율, F1 스코어등이 모두 큰 폭으로 증가하는 것을 확인할 수 있었다. 또한 실제 테스트 예문을 통해 각 모델의 예측 결과를 살펴본 결과, 구축된 구문 데이터셋에 충분한 구문 정보가 포함되어 있으며, 구문 데이터셋의 학습이 자연어처리 모델의 처리 성능을 높이는 데 도 움을 줄 수 있음을 확인하였다.
more초록 (요약문)
The purpose of this study is to build a construction dataset that considers the syntactic and semantic characteristics of language and to use it in the field of Natural Language Processing(NLP). Currently, datasets used in the NLP domain are mainly focused on building large amounts of corpus, and language models that have learned such datasets do not properly handle constructions. This thesis attempted to describe the process of building a dataset based on construction grammar and to reveal the effectiveness of the dataset built through experiments using an actual NLP language model, BERT. The subject of this study is the construction of compound directional complement in Chinese. The meanings of this construction are rich and various, but some of the constructions appears only in the corpus of certain fields, making it difficult for language models to learn sufficiently with the general corpus given to them. In this thesis, construction data was extracted from various areas of BCC corpus, CCL corpus, and colloquial corpus, and processed into a form that language models can learn to build a compound directional complement construction dataset of about 250,000 sentences. Chapter 2 summarizes the information of the construction that the dataset must contain before constructing the dataset. In particular, the syntactic and semantic characteristics of each compound directional complement construction were analyzed. The compound directional complements defined in this thesis appear in six forms and has four semantic characteristics, and each phrase performs various aspectual functions, such as adding directional colors to the sentence or expressing completion, result, duration, beginning, etc. Chapter 3 proposes a method of search and extraction based on the forms of the construction, and describes the process of constructing an actual construction dataset from three source corpora. The processes of constructing dataset were divided into first and second extraction process for each corpus so that the constructions with various forms and meanings can be included. In the first section of extraction, the search formulas were divided into four types to describe the process of extracting examples considering various forms of construction. In the second section of extraction, only actual construction data was selected and processed among the extracted sentences using a part-of-speech(POS) tagging program. Chapter 4 deals with quantified data, compositional information, and distributional characteristics of construction dataset actually constructed through extraction methods. In addition, the chapter describes the results of statistical analysis such as the ratio of complement and type among dataset and the analysis result of the information of frequently combined verb of each construction. As a result of the analysis, it was verified that various semantic and syntactic information of the construction was appropriately included in the construction dataset. In Chapter 5, experiments using two types of BERT models were conducted to confirm the effectiveness of the actual dataset. As a result of learning and testing the dataset built for the model, it was confirmed that accuracy, precision, recall, and F1 score all increased significantly compared to the pre-trained model. Furthermore, the predictions of each model through some actual test examples were examined and it was confirmed that the constructed dataset contains sufficient information of the construction, and that learning the construction datasets can help improve the processing performance of the NLP models.
more