검색 상세

결정트리를 이용한 지시표현 '것'의 식별 : Identifying Referential Expression ‘Geot’ Using Decision Tree

  • 발행기관 서강대학교 대학원
  • 지도교수 서정연
  • 발행년도 2005
  • 학위수여년월 200508
  • 학위명 석사
  • 학과 및 전공 컴퓨터학
  • 식별자(기타) 000000084713
  • 본문언어 한국어

초록/요약

지시 표현 ‘것’은 한국어 구어 대화에서 자주 등장하는 표현이다. 그러나, 지시 해석(Reference Resolution)에 관한 기존 연구에서 ‘~것’이 제대로 다루어지지 못했다. 지시 표현 ‘것’은, 대명사나 한정 명사구와 같이 그 자체가 독립적인 지시 표현이 아니기 때문이며, 무엇보다 지시 표현 ‘것’은 지시 표현이 아닌 보문소(complementizer)로서의 ‘것’과 구별되지 못했기 때문이다. 지시적 쓰임과 보문소 쓰임을 구분하는 언어학적 규칙이 없기 때문에, 본 연구는 담화상에서 ‘것’이 쓰이고 있는 여러 가지 특성을 기반으로 기계 학습을 이용하여 식별하는 방법을 제안한다. 궁극적으로는 지시 해석의 대상을 넓히고, 담화 이해의 질을 높인다. ‘것’을 식별하기 위한 자질로, ‘것’이 가지고 있는 언어학적 속성과 담화 상의 속성을 기반으로 자질 집합을 제안하였고, 가장 기본적이고 믿을 만한 한국어 자연어처리 단계인 형태소 분석의 결과만으로 자질값을 추출하였다. 이를 바탕으로 결정 트리를 이용하여 여행 관련 대화를 대상으로 실험하였으며, 보문소에 대해서는 92.3%, 지시 표현에 대해서는 82.2%의 F-measure를 보였다.

more

초록/요약

Referential expression ‘Geot’ is often occurred in Korean spoken dialogue. However, it has not been properly dealt with by the previous researchers of Reference Resolution, since it is not by itself the referential expression like pronoun and definite noun phrases. More than anything else, it has never been dealt with being discriminated from complementizer ‘geot’. There is no rule to discriminate the referential usage of ‘geot’ from complementizer usage of it. Therefore, we propose a method to identify the referential ‘geot’ from the complementizer ‘geot’ using machine learning, based on the various characteristics that both ‘geot’ have in their discourse. Then, ultimately this research would like to broad the items of reference resolution and improve the level of discourse understanding. We have proposed a feature set which is based on the linguistic property of ‘geot’ and the discourse property of its text, and extracted feature values from the result of morphological analysis which is the most practical and reliable in Korean NLP tasks. We made an experiment on this with a dialogue corpus which is related with travel. Our approach achieved the F-measures of 92.3% and 82.2% for complementizer and referential expression.

more