키워드 및 메타 데이터 기반의 문헌 분류 시스템 : Text Classification System based on Keywords and Meta Data
- 발행기관 서강대학교 대학원
- 지도교수 양지훈
- 발행년도 2005
- 학위수여년월 200508
- 학위명 석사
- 학과 및 전공 컴퓨터학
- 식별자(기타) 000000084733
- 본문언어 한국어
초록/요약
온라인 상에서 얻을 수 있는 텍스트 정보의 양이 급증함에 따라 이들의 효율적 이용이 요구된다. 문서의 자동 분류는 미리 정의된 범주에 문서를 할당하는 작업으로 방대한 양의 수작업을 감소시켜 효율적인 문서 이용에 도움을 줄 수 있다. 또한 정보 추출의 사전 단계로 추출의 정확성을 높이는데 중요한 역할을 한다. 문서의 자동 분류를 위해 문서상에 나타난 모든 단어를 이용하는 방법, 자연어 처리 기법을 사용하여 의미를 파악해 분류하는 방법 등 다양한 분류 방법이 연구 되어왔다. 그러나 이런 기법들은 분류의 성능이 좋지 못하거나 추가적인 언어학적 지식을 필요로 하는 등의 문제가 있다. 이에 본 논문에서는 문서에서 메타 데이터를 추출하고 이를 이용해 기계 학습 알고리즘을 사용하는 분류 방법을 제시한다. 메타 데이터는 데이터에 관한 데이터로서 속성을 기술하는 데이터를 의미하는데, 키워드만을 이용하는 것 보다는 그 문서가 가진 속성을 이용하므로 문서 분류의 정확도를 높일 수 있을 것이라 생각한다. 또한 XML의 표준화 작업이 진행 중 이므로 앞으로 메타 데이터의 추출은 더욱 수월해질 것으로 예상되어 효율적으로 분류에 이용 할 수 있다. 문서가 갖는 메타 데이터는 다양한데, 본 연구에서는 제목, 저자, 초록, 참고문헌을 이용해 분류를 수행하였고, 문서 내의 모든 키워드를 이용한 분류와 메타데이터를 이용한 분류 실험과 결과를 보여준다. 문서 내의 모든 키워드를 이용한 분류와 비교했을 때 ‘제목, 저자, 초록’을 이용한 분류가 가장 높은 정확도를 보여주었고, ‘초록’을 이용한 분류가 가장 높은 F-measure를 보여주어 메타 데이터를 이용한 분류가 더 좋은 성능을 보여주는 것을 확인할 수 있었다. 또한 정보 획득량을 이용한 자질 선택 기법을 수행하여 분류의 성능을 향상 시킬 수 있었고 ‘제목 저자, 초록’을 이용해 나이브 베이즈 알고리즘을 사용한 분류와 참고문헌의 유사도를 이용한 분류를 결합해 89.4%의 정확도를 얻을 수 있었다.
more초록/요약
As the amount of online text information increases rapidly, we need to use it more efficiently. We could save a great amount of handwork and make good use of information through automatic text classification. Furthermore, automatic text classification plays an important role as the pre-processing of information extraction in improving performance of extraction. Many researches on automatic classification, for example, using keywords in documents or natural language techniques have been carried out. However, these showed low performance of classification and required additional linguistic knowledge. This thesis suggests an approach to text classification using meta data from text documents. Meta data is data about data, which describe the properties of documents. We can classify documents more accurately with the meta data than with the keywords only, since we are able to reflect the properties of documents. In addition, with XML standardization on the way, it is expected to extract meta data more easily resulting in more efficient classification. Documents could have various types of meta data, among which this thesis considered the title, author, abstract and references. This thesis includes results of a series of experiments for text classification. Compared with the classification using the keywords in documents, classification using the title, author and abstract produced the highest accuracy. When the abstract was used only, it showed the highest F-measure, which verifies the meta data improves the performance of classification. In addition, classification with feature subsets generated by information gain showed improved performance. Furthermore, a combined approach of Naive Bayes on the meta data and similarity vectors on the references produced 89.4% of classification accuracy.
more