투사성의 원리를 이용한 결정적 한국어 의존 구문분석의 보정기법
A Correction Method using the Projectivity for Deterministic Korean Dependency Parsing
- 주제(키워드) 의존 구문분석 , 의존 관계 , 자연어처리
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2011
- 학위수여년월 2011. 8
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000046859
- 본문언어 한국어
- 저작권 서강대학교의 논문은 저작권보호를 받습니다.
초록/요약
구문분석은 자연어 문장의 문법적인 구조를 분석하는 것이다. 구문분석을 통해 문장내의 목적격, 주격 관계와 같은 수식관계들을 파악할 수 있으며 이 정보들을 이용하여 문장의 정확한 의미를 분석할 수 있다. 한국어의 구문분석은 주로 단어와 단어사이 의존관계를 분석하는 의존 구문분석을 대상으로 많이 연구되어 왔다. 최근 의존 구문분석은 결정적 의존 구문분석과 비결정적 의존구문분석 2 가지 방식으로 연구되고 있다. 결정적 의존 구문분석은 문장의 일부만을 고려하여 의존관계를 분석하기 때문에 분석 속도 측면에서는 유리하지만 정확률 측면에서 비결정적 의존 구문분석에 비해 낮은 성능을 보여준다. 본 논문에서는 결정적 의존 구문분석의 오류를 보정하여 성능이 개선된 결정적 한국어 의존 구문분석을 제안한다. 본 논문에서는 한국어의 특성인 지배소 후위의 원칙을 이용해 기본적인 결정적 의존 구문분석 알고리즘을 제안한다. 이때 투사성을 근거로 하여 기본적인 결정적 의존 구문분석 결과의 오류를 검사하였고 재 탐색 알고리즘을 제안하여 찾아낸 오류를 보정하였다. 또한 결정적 의존 구문분석에서 사용할 수 있는 분석 중간결과(parsing history)를 이용하여 효과적인 자질들을 제안하였다. 우리는 실험을 통하여 제안하는 모델이 기존의 비결정적 알고리즘과 동등한 성능을 제공하고 중간분석 결과를 자질로 사용할 경우 향상된 성능을 제공함을 증명하였다.
more초록/요약
A parsing is a task of achieving syntactic informations in natural language processing. Accurate parsing is a important role at understanding natural language. In the case of Korean language parsing, dependency parsing that representing syntactic information is the head-modifier dependency is studied more active than phrase structure parsing. In this paper, we focus on the dependency parsing for Korean language. Lately studies of dependency parsing was classified two categories as deterministic or non-deterministic. A main advantage of deterministic parsing is rapid speed and disadvantage is low accuracy than non-deterministic parsing. In this paper, we propose a Korean dependency parsing using correction of projectivity. The proposed parser corrects errors of deterministic parsing model using projectivity for basic dependency parsing model using head-final. In result of deterministic parsing algorithm, the crossed dependencies must have errors. In this case, the proposed parser can improved performance by re-search. The proposed parser can use informations of parsing history, because have a form of deterministic algorithm. Therefore expect to improved performance than nondeterministic parsers. We evaluate our parser on the ETRI(2005) corpus that consist of complex sentences, and show higher accuracy than other parsers.
more