음절 단위 토큰화 기반의 언어 모델을 이용한 개체명 인식 시스템
A Named Entity Recognition System Using Character-level Pre-trained Language Model
- 주제어 (키워드) 개체명 인식 , 토큰화 , Wordpiece , 언어 모델 , 자연어 처리 , BERT
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2022
- 학위수여년월 2022. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000066891
- UCI I804:11029-000000066891
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
개체명 인식 모델은 문서에 등장하는 각 개체의 유형과 범주를 분류하는 모델이다. 개체명 인식 결과는 다양한 자연어처리 분야에서 핵심 구성 요소로 사용 된다. 또한 개체명 인식은 정보 추출 분야에서도 많은 응용이 이뤄지는 중요한 태스크이다. 정확한 개체명 인식을 위해 사전 학습 언어 모델을 기반으로 하는 다양한 연구들이 진행되어왔다. 그러나 기존의 대부분의 사전 학습 언어 모델들은 subword 단위의 임베딩을 사용한다. 한국어의 경우 subword 단위 임베딩을 사용할 경우 개체의 경계가 모호해지는 한계점이 존재한다. 이를 해결하기 위해 본 논문에서는 음절 단위 임베딩을 생성하기 위한 토큰화 방법을 제안하고, 모델이 더 많은 정보를 학습할 수 있도록 기존의 학습 방법을 확장하여 적용한다. 제안하는 토큰화 모델은 워드피스 토크나이저를 학습한 뒤 음절 단위로 변환하여 생성한다. 제안 방법으로 생성된 음절 단위 언어 모델은 KLUE 개체명 인식 데이터 셋에 대해 Entity-f1 89.16, Char-f1 93.85라는 성능을 기록하였고, 국립 국어원 개체명 분석 데이터 셋에서 Entity-f1 85.06, Char-f1 88.28이라는 우수한 성능을 기록했다. 또한 개체명 인식 뿐만 아니라 기계독해, 감정분석, 자연어 추론 태스크 들에 대해서도 높은 성능을 보이며 제안한 언어 모델의 효과를 증명했다.
more초록
The named entity recognition model classifies the type and category of each entity appearing in a document. Various natural language processing tasks use the result of named entity recognition as a core component. Also, named entity recognition is an essential task with many applications in information extraction. Various studies based on pre-trained language models have been conducted to recognize the named entity accurately. However, most of the existing pre-trained language models use subword embeddings. In the case of Korean, there is a limitation in that the entity’s boundary becomes ambiguous when subword embedding is used. In this paper, we propose a tokenization method for generating character-level embeddings and extend the pre-training tasks so that our model can learn more information. The proposed character-level language model achieved an entity-f1 score of 89.16 and a char-f1 score of 93.85 for the KLUE named entity recognition dataset, and also achieved an entity-f1 score of 85.06 and a char-f1 score of 88.28 for the NIKL named entity recognition dataset. In addition, it proved the effectiveness of the proposed language model by showing high performance on machine reading comprehension, sentiment analysis, and natural language inference tasks as well as named entity recognition.
more