점수화를 이용한 마이크로블로그 키워드의 질의처리 개선기법
An Enhancement for Processing Keyword Queries of Microblogs using Scoring
- 주제(키워드) 도움말 마이크로블로그 , 키워드 점수화 , 해시태그 , 쿼드트리 , 실시간 질의 , 버스트 점수화 , Large-tree , Small-tree
- 발행기관 서강대학교 일반대학원
- 지도교수 박석
- 발행년도 2016
- 학위수여년월 2016. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000058823
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
모바일 기기의 발달에 따라 트위터와 같은 마이크로블로그 서비스는 그 사용량이 점차 증가하고 있다. 마이크로블로그는 위치좌표, 시간값, 키워드 등 다양한 특성이 있으며 대규모로 수집할 수 있기 때문에 유용한 정보를 얻기에 적합하다. 키워드 질의는 마이크로블로그 데이터를 활용할 수 있는 질의 중 하나로 유용한 정보를 얻을 수 있다. 마이크로블로그의 키워드 질의를 처리하기 위해서는 대용량의 마이크로블로그를 처리하여 사용자에게 유용한 결과를 실시간으로 돌려줄 수 있어야한다. 본 연구는 대용량의 마이크로블로그 데이터를 처리하기 위해 2개의 공간 트리를 두어 사용자에게 검색될 가능성이 높은 데이터셋과 그렇지 않은 데이터셋을 키워드로 구분하여 보관한다. 키워드 리스트 구성을 위해, 버스트 점수에 근거한 점수화 기법을 제시하여 인덱스가 제공하는 데이터의 유용성을 보존하는 방법을 모색하였다. 또한 프루닝 기법을 적용하여 셀 안의 오브젝트를 전부 방문하지 않고도 거리를 측정하였다.
more초록/요약
The amount of usage of microblog services such as Twitter has significantly growing nowadays. Microblog is suitable for obtaining helpful information because it contains a lot of features such as geo-coordinates, timestamp, keyword, etc. Keyword queries are one of the queries which can utilize microblog dataset for gaining useful information. It is necessary to organize and index large amount of microblogs to process keyword queries in real-time. Our studies propose that a framework keeps a keyword dataset and a spatial tree that could be searched frequently or not to process massive dataset of microblogs. We also proposed modified keyword scoring measure based on burst score for constructing keyword list. It keeps utilities of microblog dataset and enhanced query processing time. In addition, we applied a pruning technique which can measure the distance without having to visit all of objects within the cell.
more