Bert Model의 Fine-Tuning에 기반 한 자기소개서의 유형 분류
Classification of Self-introduction Based on Fine-Tuning of Bert Model
- 주제(키워드) 자기소개서 , Holland 성격유형 , 문서분류 , Word2vec , LSTM , Bert , Fine-Tuning , 핵심문장추출 , Text-Rank , Truncation method , letter of self-introduction , Holland’s personality type , document classification , word2vec , LSTM , Bert’s Fine-Tuning , Text-Rank , Extract the core sentences , Truncation method
- 발행기관 서강대학교 정보통신대학원
- 지도교수 박석
- 발행년도 2020
- 학위수여년월 2020. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- UCI I804:11029-000000065384
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
스마트폰의 대중화로 개인화 중심의 서비스가 온라인 시장의 핵심 경쟁력으로 자리 잡아 가고 있다. 이러한 개인 중심의 서비스로 인해, 채용 시장에도 채용공고 추천이나 인재 추천을 위한 구직자 성향분석에 대한 시도가 증가 되고 있다. 특히 블라인드 채용 시행으로 자기소개서 위주의 구직자 유형 분석에 대한 수요가 증가 되고 있다. 하지만 텍스트 기반의 성향분석에는 다음과 같은 문제들이 있다. 학습을 위한 특징 산정이 어렵고, 카운트 기반의 모델은 단어 간 의미 파악이 어려우며, 학습 말뭉치에 등장하지 않는 어휘에 대한 의미 추론이 어렵다. 이러한 문제를 개선하기 위해 전처리 과정을 반복해야 하는 어려움이 있으며, 장문의 텍스트의 경우에는 고정된 토큰에 영향을 받아, 문장 전체를 활용하지 못하는 문제가 존재한다. 본 연구는 문장의 문맥 정보가 반영되는 사전 학습모델 Bert의 Fine-Tuning과 Holland 6가지 성격유형(탐구형, 현실형, 진취형, 예술형, 관습형, 사회형)을 이용한 분류모델을 구축하여, 자기소개서의 유형 분류의 개선방안을 제안한다. 그리고 Bert의 토큰 개수 제한으로 문장 전체를 사용하지 못하는 장문의 경우 자기소개서의 핵심문장을 모델에 적용함으로써 모델의 성능을 개선한다. 핵심문장의 경우 자기소개서 글쓰기 특징을 반영한 알맞은 추출 방법을 제시한다. 연구실험을 위해 기존의 텍스트 분류로 성능이 입증된 word2vec과 LSTM(비교모델)을 활용한 모델을 구축하여, Bert Fine-Tuning의 기반모델과 비교하는 실험을 진행하였다. Bert Fine-Tuning 모델이 비교모델에 비해 분류 정확도 약 3.5%의 성능이 향상되면서, 대량의 말뭉치로 사전 학습된 모델이 자기소개서 분류에도 긍정적인 효과가 있는 것을 확인하였다. 이어서 Bert 토큰의 개수를 초과하는 장문의 경우 분류성능에 미치는 영향이 있는지 확인을 위해 Text-Rank 기반 핵심문장 요약을 기반모델에 적용하였다. 실험 결과는 기반모델의 성능보다 정확도 약 0.3%의 향상을 확인할 수 있었다. 마지막으로 자기소개서에 맞는 핵심문장을 추출하기 위해 자기소개서 글쓰기로 가장 활용이 많이 되는 두괄식과 양괄식 글쓰기 특징을 이용하여, 문장의 머리와 꼬리 부분을 핵심문장으로 활용하는 실험을 진행하였다. 문장의 머리와 꼬리의 비율 조정을 통해 머리 90%+꼬리 10%일 때 가장 좋은 성능을 보이는 것을 확인하였고, 기반모델보다 약 1.1%의 분류 정확도가 향상되었다. 본 연구를 통하여, Bert의 Fine-Tuning 모델이 기존의 텍스트 임베딩을 활용한 모델보다 문장의 문맥 정보가 반영되기 때문에 자기소개서 분류에도 효과가 있음을 확인하였으며, 장문의 경우 자기소개서의 특징이 반영된 핵심문장이 Bert의 분류모델에 효과가 있음을 검증하였다.
more초록/요약
By the popularization of smartphones, individual-oriented services are becoming the key competitiveness in the online market. Because of such individual-oriented services, more and more companies are trying to analyze job seekers’ characteristics in the job market for the recommendation of job posting or prospective workers. Especially, due to the implementation of blind recruitment, the demand for job seeker characteristics analysis centering on a letter of self-introduction is increasing. However, the following are the problems in text-based characteristics analysis: it is difficult to extract features for learning; the count-based model has difficulty in understanding the meaning between words; inferring the meaning of vocabulary which does not appear in the learning corpus is hard. To solve those problems, the pre-processing should be repeated. However, such repetition is difficult. Also, for the long text, the token number limitation affects the analysis, which makes the whole sentence unusable. This study suggested a method to improve the classification model of letter of self-introduction, by constructing a model using pre-trained model Bert’s Fine-Tuning, which reflects the contextual information of the sentence, and Holland’s six personality types (Investigative, Realistic, Enterprising, Artistic, Conventional, Social). For long sentences, which usage of the whole sentence is not available due to the token number limitation of Bert, the model performance was improved by applying the core sentences of the letter of self-introduction. For the core sentences, an adequate extract method, which reflects the writing characteristics of a letter of self-introduction, was presented. For the research experiment, a model used Word2vec, whose performance was verified by existing text classification, and LSTM (comparison model), was constructed. Then the constructed model was compared with the base model of Bert Fine-turning. Since Bert Fine-Tuning model showed 3.5% of performance improvement in classification rate compared to its counterpart, this study confirmed that a pre-trained model with a large number of the corpus has a positive effect on the classification of letter of self-introduction. For long sentences, which exceed the Bert token number, a core sentence summary based on Text-Rank applied to the base model to see if they affect the classification performance. The result showed that the improvement compared to the base model was about 0.3%. Lastly, to extract the core sentence that fits the letter of self-introduction, an experiment was conducted using the head and tail parts of sentences as the core sentences, regarding the most frequently used two writing styles which place core sentences at the head of the writing and at both head and tail of the writing. By adjusting the ratio of the head and tail of the sentences, it was shown that the model best performed when the head’s ratio was 90% and the tail’s ratio. The classification rate improved by about 1.1% compared to the base model. This study showed that Bert's Fine-Tuning model is more effective in classifying the letter of self-introduction to existing models using text embedding because the Fine-Tuning model reflects context information of the sentence. For the long sentences, this study proved that the core sentence which reflects the characteristics of letters of self-introduction is effective in Bert's classification model.
more