검색 상세

확장된 질의 처리를 위해 고안된 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법

XML Document Ranking based on Path Similarity for Expanded Query Processing

초록/요약

XML은 정보를 효율적으로 저장하고 처리 할 수 있는 언어로써 현재 널리 사용되고 있다. XML은 구조적인 특성을 가지고 있는데 XML로 작성된 문서에서 원하는 정보를 얻고자 할 때 사용자는 구조적 정보를 이용한 XPath를 사용하여 질의한다. XPath질의는 XML문서와 비교하여 양측에서 사용하는 용어와 그 용어들의 구조가 동일할 시에만 정상적으로 처리될 수 있는데 최근의 Web환경에서는 다양한 내용의 정보가 다양한 구조를 가진 XML문서로 작성되므로 사용자가 모든 문서에서 사용한 용어와 구조를 알 수 없다. 따라서 사용자는 정상적으로 처리되기 어려운 형태의 질의를 작성하기 쉬운데 이 경우 문서 측에서 사용자가 얻고자 하는 정확한 정보 혹은 유사한 정보를 가지고 있는 경우가 적지 않음에도 질의 측과 문서 측의 용어적, 구조적 차이 때문에 번번히 해당 질의가 거절된다면 정보의 낭비와 이로 인한 질의 처리의 비효율이 발생된다. 따라서 본 연구에서는 이러한 문제를 해결하기 위해 다수의 문서를 대상으로 사용자가 특정한 정보를 얻기 위해 질의한 경우, 사용자 질의 측에서 사용한 태그(tag) 노드(node)들과 문서 측에서 사용한 태그 노드들의 용어와 구조가 동일한 경우 해당 문서를 사용자 질의에 대한 최 상위 문서로 판단하고 이러한 문서가 없을 시, 사용자 질의와 문서 측에서 사용한 용어가 상이(相異)하더라도 질의 측의 용어를 문서 측에서 처리해 줄 수 있는 형태로 변환해 주고, 이후 질의 측과 문서 측의 구조가 상이한 경우에도 사용자가 요구하는 정보 즉, 질의가 가지는 의미와 유사한 정보를 제공할 수 있는 문서들을 제안하는 경로 유사도 기법으로 찾아 다수의 문서들을 대상으로 사용자 질의와 의미적으로 유사한 순으로 순위화된 정보를 사용자 측에 제공한다. 따라서 사용자는 특별한 질의 재 작성 과정 없이 자신이 질의를 통해 요청한 정확한 정보는 물론 자신이 얻고자 한 정보와 의미적으로 유사한 순으로 순위화 된 결과를 제공 받을 수 있으며 본 연구에서는 사용자 질의와 문서간의 의미적 유사성을 측정하고 이를 이용해 사용자 질의에 의미적으로 가까운 순으로 문서를 순위화 하는 기법을 제시한다.

more

초록/요약

XML is broadly using for data storing and processing. XML is specified its structural characteristic and user can quering with XPath when they want some information from data document. XPath query can process when the term and structure of document and query is matched with each other. However, nowadays there are lots of data documents which are made by using different terminology and structure therefore user can not know the exact idea of target data. Actually there are many possibilities that target data document has information which user is find or a similar ones. Accordingly user query should be processed when their term usage or structural characteristic is slightly different with data document. In order to do that we suggest a XML document ranking method based on path similarity. The method can measure a semantic similarity between user query and data document using three steps which are position, node, relaxation factors.

more

목차

Ⅰ. 서론 = 1
Ⅱ. 관련연구 = 3
2.1 정보검색(Information Retrieval)과 순위화(Ranking) = 3
2.1.1 정보 검색 = 3
2.1.2 순위화 = 5
2.2 XML 환경 및 XPath 질의 = 6
2.3 XML Tree 인덱싱(Indexing) = 12
Ⅲ. 제안기법 = 14
3.1 연구 동기 = 14
3.1.1 고전적 질의 처리 방식 = 14
3.1.2 최근의 연구들이 가지는 한계 = 17
3.2 시스템 구조 및 유의어 처리 = 21
3.2.1 시스템 구조 = 21
3.2.2 유의어 처리 = 22
3.3 경로 유사도 측정 = 25
3.3.1 상대적 위치가 같은 노드의 처리(Position) = 25
3.3.2 상대적 위치가 다른 노드의 처리(Node) = 29
3.3.3 경로의 의미적 유사도 = 33
3.4 질의 이완 = 36
Ⅳ. 실험 설계 및 성능평가 = 42
4.1 실험 환경 = 42
4.2 실험 결과 및 분석 = 45
Ⅴ. 결론 및 추후 연구 = 49
참고문헌 = 51
그림 및 표 차례
[그림 1] 마크업 언어 = 7
[그림 2] XML과 HTML의 차이점 = 8
[그림 3] XML 문서와 DTD = 9
[그림 4] XML 문서 트리 = 10
[그림 5] Dewey Labeling 기법 = 13
[그림 6] 고전적 질의 처리방식으로 처리 가능한 질의와 거절되는 질의 = 16
[그림 7] 제안 기법의 처리 과정 = 22
[그림 8] 문서상의 유사 후보 경로 도출 = 24
[그림 9] 경로간의 공통 노드 중 상대적 위치가 동일한 것에 대한 = 27
[그림 10] 경로간의 공통 노드에 대한 상대적 위치 고려가 갖는 한계 = 28
[그림 11] 경로간의 공통 노드의 존재 유무의 기준으로 경로 유사도를 측정 = 32
[그림 12] 경로의 의미적 유사도 측정 = 33
[그림 13] 경로간 유사도 수치가 동일한 경우 = 34
[그림 14] 경로간의 유사도 수치가 동일한 경우 2 = 35
[그림 15] 질의 이완 = 38
[그림 16] 질의 이완 2 = 39
[그림 17] 질의 이완 3 = 39
[그림 18] 질의 이완 4 = 40
[그림 19] 질의 이완 단계까지 고려한 최종 경로 유사도 수치가 동일한 경로들 = 41
[표 1] IRS와 DBMS의 유사점과 차이점 = 4
[표 2] XPath 경로 상의 축 = 12
[표 3] 노드 개수에 따른 의미적 유사도 = 29
[표 4] 노드들의 가지는 의미적 중요도를 고려한 개수에 따른 의미적 유사도 = 31
[표 5] 네 가지 질의 이완 기법 = 36
[표 6] 순위 단계 = 45
[표 7] 순위 단계 차트 = 46
[표 8] 검색 정확도 = 47
[표 9] 검색 정확도 차트 = 47
[표 10] 시간 측정 = 48
[표 11] 시간 측정 차트 = 48

more