검색 상세

한국어 정보검색에서 N-GRAM 이용한 미등록어 색인 방법 : An Indexing Method for Unknown Words Using N-GRAM in Korean Information Retrieval

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 서정연
  • 발행년도 2007
  • 학위수여년월 2007. 8
  • 학위명 석사
  • 학과 및 전공 정보통신대학원
  • 식별자(기타) 000000104481
  • 본문언어 한국어

목차

정보 검색을 위해 한국어 문서를 색인하는 경우 일반적으로 어절과 형태소 분석을 수행하여 명사를 색인어로 추출하지만, 형태소 분석 시 참조하는 어휘사전에 존재하지 않는 단어인 미등록어는 분석의 모호성으로 정확하게 추출하기 어렵다. 미등록어는 고유명사, 외래어, 전문용어 등으로 정보 검색 시 중요한 색인어가 될 수 있다.
N-GRAM은 색인 시 언어적 특성을 배재하여 속도가 빠르며, 형태소 분석 사전에 없는 미등록어의 색인에 유리 하고, 복합명사의 분리에도 효과적이다. 그러나 다른 색인 알고리즘과 비교하면 상대적으로 색인어를 많이 추출하여 저장 공간을 비효율적으로 사용하며, 검색 효율을 저하시키는 단점이 있다.
본 논문에서는 N-GRAM의 단점을 보완하기 위해 한국어 문서 색인 시 체언과 용언을 먼저 색인어로 추출한 뒤, 미등록어 처리 단계에서 N-GRAM을 적용하는 색인 방법을 제안 한다. 그리고 동일한 검색 시스템에서 미등록어 색인 알고리즘에 N-GRAM을 적용 시 다른 알고리즘과 비교하여 성능이 향상 되는 것을 실험으로 확인하였다.

more

목차

When indexing korean document for information retrieval, the general practice is to index nouns using phrase and morpheme analysis. However, difficulties lie in indexing those unknown words in the dictionary, a commonly used reference tool for morpheme analysis. Such unknown words can include proper nouns, borrowed words, and professional terms, and they can be a key index for information retrieval.
The N-GRAM, with its non-linguistic features, is characterized by faster processing speed, the ability to index unknown words not listed in the morpheme dictionary, and is effective for separating compound nouns.On the other hand, it can extract unrelated index words which lead to taking up too much of memory space and can degrade search efficiency.
In order to make up for such weak points of N-GRAM, this study suggests that uninflected words and conjugated words be extracted as index words first and that N-GRAM be applied at the stage for processing unknown words. Also, experiments showed that, with the same retrieval system, application of N-GRAM to the indexing algorithm for unknown words helped it perform better than other algorithms.

more