토픽모델링 적용 학술 검색 엔진 검색 품질 향상
Applying latent topic modeling to improve academic search quality
- 주제(키워드) latent dirichlet allocation , search engine optimization , online latent dirichlet allocation , structural topic model
- 발행기관 서강대학교 정보통신대학원
- 지도교수 김승욱
- 발행년도 2020
- 학위수여년월 2020. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- UCI I804:11029-000000065280
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
연구자가 연구를 할 때 정보를 취득하려면 학술 정보 서비스를 이용해야 한다. 그런데 방대한 자료 가운데 연구개발목적에 맞는 최신정보 자원을 확보하려면 검색 결과가 특정 분류 규칙 없이 관련도 순으로만 제시되어 연구자가 검색 결과를 검토할 때 많은 시간과 노력이 필요하다. 그래서 본 연구에서는 학술정보 검색결과의 품질을 개선하기 위해 LDA기반의 토픽모형화 기법을 이용한 학술검색 시스템을 제안하고 그 호용성을 탐색해본다. 이를 위해 OAI 프로토콜을 이용한 KCI의 등재된 약 156만개 학술지 메타데이터 데이터베이스를 구축하였다. 이 중 빅 데이터 관련 문헌 초록 정보에 관하여 보편 의존관계 주석체계를 이용해 형태소 분해를 하였다. 분해 결과 나타난 단어 빈도를 토대로 변곡점 분석을 수행해 희소 단어를 제거하였다. 기초 연구 실험은 LDA 기반인 STM 모형과 온라인 LDA를 이용해 분석하고 비교하였다. 또한 엘라스틱서치 이용여부에 따른 토픽 수효, 분석 소요시간을 측정하여 이원분산분석을 실시하였다. 실험결과 STM모형이 온라인 LDA 보다 토픽추정 소요시간면에서 우수하고 안정적임을 확인함과 검색 결과 품질 측면에서 토픽모형화 기법에 관계없이 기본 RDBMS 환경에서 얻은 검색결과가 엘라스틱서치 환경보다 해석면에서 질적 우수성이 드러났다.
more초록/요약
Researchers use academic information services through various channels, but it takes a lot of time and effort to secure the latest information resources suitable for research and development purposes among vast data. In this study, we propose a real-time academic classification search system using elastic search and online LDA to provide efficient academic information resources to researchers. To this end, KCI's approximately 1.56 million published journal metadata using OAI protocol is analyzed using STM as a control variable among data pre-processing and topic modeling techniques using universal dependency annotation system and inflection point, and online LDA as a proposed model. Compared. In addition, two-way analysis was performed by measuring the number of topics, the average number of documents in the topic, and the time taken for analysis depending on whether Elasticsearch was used. As a result of the study, it was confirmed that the number of topics differed according to the topic modeling fears and the conditions of using Elasticsearch, and the proposed online LDA was lower in performance and unstable than the STM even in the time required for analysis.
more