Word2Vec을 이용한 반복적 접근방식의 그래프 기반 단어 중의성 해소
An Iterative Approach to Graph-Based Word Sense Disambiguation Using Word2Vec
- 주제(키워드) 도움말 단어 중의성 해소 , Word2Vec , BabelNet , 비지도 학습 , 그래프 기반 , 자연어처리
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2016
- 학위수여년월 2016. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000058987
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
자연어에서는 하나의 단어가 둘 이상의 의미를 가지기도 한다. ‘다리’라는 단어는 사람이나 동물의 몸통 아래 붙어있는 신체의 부분을 의미하기도 하고, 물을 건너거나 또는 한편의 높은 곳에서 다른 편의 높은 곳으로 건너다닐 수 있도록 만든 시설물을 의미하기도 한다. 인간은 이러한 단어가 문장에 사용되었을 때 어떤 의미로 사용되고 있는지 쉽게 판단할 수 있지만 컴퓨터는 그렇지 않다. 따라서 둘 이상의 의미로 사용되는 중의성 단어가 문맥에서 어떤 의미로 사용되는 지를 정확하게 파악 하는 작업이 필요하다. 이 작업을 단어 중의성 해소라고 한다. 단어 중의성 해소 방법은 지도 방식 및 비지도 방식으로 분류할 수 있다. 지도 방식 단어 중의성 해소 접근 방법은 단어들에 대한 의미 태그가 붙은 말뭉치를 사용하여 통계적인 정보를 추출하고 이를 판단하는 방식이다. 하지만, 신뢰할 수 있는 결과를 산출하기 위하여 많은 양의 태그가 붙은 말뭉치를 필요로 하고, 그 범위 또한 몇몇 단어들로 제한되어 있다. 그러나 언어의 모든 단어와 의미를 포함하고 적합한 학습데이터를 작성하는 것은 매우 어렵고 비용이 많이 드는 작업이다. 본 논문에서는 이런 문제점들 때문에 대규모의 의미 태그가 된 말뭉치를 필요로 하지 않는 그래프 기반 알고리즘을 사용한 비지도 방식 단어 중의성 해소 접근방식을 제시한다. 그래프 기반 단어 중의성 해소는 모든 중의성 단어를 가지고 의미 그래프를 구축하게 되면 불필요한 간선과 노드 정보가 추가되어 오류를 증가시킨다는 단점이 있었다. 본 논문에서는 이러한 문제를 해결하고자 반복적 접근 방식의 그래프 기반 단어 중의성 해소 방식을 사용했다. 이 방식은 모든 중의성 단어들을 특정 기준에 의해서 단어 매칭을 하고 매칭 된 단어들을 반복적으로 그래프를 재구축하여 단어중의성을 해소하는 방식이다. 본 논문에서는 Word2Vec을 이용해 문맥이나 문장 내에 중의성 단어와 가장 의미적으로 유사한 단어끼리 매칭하고, 매칭 된 단어들의 유사도가 높은 순서대로 그래프를 재구축하여 연결 관계를 보고 중의성 단어의 의미를 결정하였다. 결과적으로 Word2Vec의 유사도를 이용함으로써 이전에 연구 되었던 그래프 기반 방법과 반복적 접근 방식의 그래프 기반 방법보다 더 높은 F1-Measure값을 얻을 수 있었다.
more초록/요약
Words have more than one meaning in natural language. For example, The word ‘다리' means that part of the body is attached under the body of a human or animal and a structure built to span physical obstacles without closing the way underneath such as a body of water, valley, or road, for the purpose of providing passage over the obstacle. People can easily determine whether this word is used in a sense in the sentence. But computers are not. So the word has more than one sense work is needed to understand what it means in context. This process is called Word Sense Disambiguation. Word Sense Disambiguation can be categorized as Supervised and Unsupervised. The Supervised Word Sense Disambiguation is method of extracting the statistical information from the sense tagged corpus and determining. However, in order to obtain a good performance, it requires a large amount of tagged corpus, and the range is also limited to a few words. In this paper, we propose an Unsupervised Word Sense Disambiguation Approach using the sub-graph based algorithm to complement these issues. However, Graph-based Word Sense Disambiguation has some problem. if any ambiguity word in sentence or context build sense graph, unnecessary node and edge are added and have the disadvantage of increasing the error. In this paper, we used the method of iterative approach to graph-based Word Sense Disambiguation. This method is to match ambiguity words in sentence or context by any criterion and to rebuild iterative approach to graph. In this paper, we have matched the most similar words in sentence or context using the Word2Vec and have constructed the graph with a high order similarity value. As a result, this paper has a higher F1-Measure value than the previous methods by using Word2Vec.
more