빅 데이터를 이용한 개체명 학습 코퍼스 자동 생성 기법
Automatic training corpus generation method of Named Entity Recognition using Big data
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2015
- 학위수여년월 2015. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000056089
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
개체명(Named Entity)은 인명, 기관명, 지명 등과 같이 고유명사나 일반적인 사전에 등록되지 않은 단어를 의미하며, 개체명 인식(Named Entity Recognition)은 미리 정의된 개체 범주로 텍스트의 요소를 분류하는 과정을 의미한다. 개체명 인식 과정은 현재 자연어 입력을 사용하는 다양한 응용 분야에 널리 적용되고 있다. 기존의 개체명 인식은 사람의 수작업에 의한 코퍼스를 필요로 하는 지도 학습(Supervised Learning) 기법이 적용되어 왔다. 그러나 수작업을 이용한 레이블링은 시간적, 금전적 비용이 크다. 최근에는 레이블링 비용을 줄이기 위해 소량의 seed 데이터로 다량의 학습 코퍼스를 생성하는 준지도 학습(Semi-Supervised Learning) 방법에 대한 연구가 활발히 진행 중이다. 본 논문에서는 기반으로 한 지식 베이스(Knowledge Base)에 따라 개체명 인식 코퍼스를 자동으로 생성하는 두 가지 방법을 제안한다. 첫 번째 방법은 Wikipedia(en.wikipedia.org)를 기반으로 Wikipedia 본문의 문장에 개체명을 레이블링 하여 학습 코퍼스를 생성하는 방법이다. 두 번째 방법은 Freebase(www.freebase.com)를 기반으로 Web으로부터 문장을 수집하고 개체명을 레이블링하여 학습 코퍼스를 생성한다. 두 지식 베이스를 기반으로 생성된 학습 코퍼스의 레이블링 성능은 Wikipedia 학습 코퍼스와 Web 학습 코퍼스로부터 임의의 문장을 추출하여 수작업 레이블링 한 결과로 검증하였다. 또한 각 코퍼스로 학습된 개체명 인식 모델의 성능을 검증하기 위해서 수동 레이블링된 ontoNotes와 비교하였다. 추출된 데이터로 학습된 개체명 인식 모델은 ontoNotes로 학습된 모델과 비교해 높은 precision을 보여주었다. 특히 실제 응용에서 많이 사용되는 Web 데이터 환경에서 의미 있는 성능 향상을 보여주었다.
more초록/요약
Named entity is a phrase that clearly identifies one item from a set of other items that have similar attributes such as person, organization, location etc. Named entity recognition is a subtask of information extraction that seeks to locate and classify elements in text into predefined categories. Named Entity Recognition is used for various departments which receives natural language inputs. In previous work, supervised learning method is used to recognize Named entities which needs human annotating. Recently semi-supervised learning methods are used to reduce the cost of labeling which makes extract a large amount of the labeled corpus using small seed data. In this paper, we propose the two methods which can generate named entity training corpus automatically using knowledge base. One of the methods attaches named entity labels to data using Wikipedia. The other method crawls data from web and labels named entities to web data using Freebase. We evaluate labeled corpus generated in proposed way. we extract sentences randomly from two corpus which called Wikipedia corpus and Web corpus then label them by hand annotating. Our labeling performance shows high precision in both corpus evaluation. we also compare the performance of named entity recognizer trained by ontoNotes corpus which is labeled by human with our automatic generated labeled corpus from Wikipedia and Web. The result showed that proposed named entity recognizer adapted well with new corpus which reflects diverse sentence structures and the newest entities.
more