BM25 기반 Hard-Negative Sampling 및 Hardness Annealing Policy를 활용한 인공지능 기반 실용적 특허 문헌 임베딩 학습 방법 : BM25-based Hard-Negative Sampling and Hardness Annealing Policy for Practical Patent Document Embedding Learning Using AI
- 발행기관 서강대학교 정보통신대학원
- 지도교수 박운상
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000078969
- UCI I804:11029-000000078969
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
특허 문서 검색은 방대한 데이터 속에서 사용자가 원하는 정보를 정확하게 찾아내는 것이 중요한 과제이다. 기존의 특허 문서 검색 방법은 성능과 효율 성 측면에서 제한이 있었으며, 특히 상위 검색 결과에서의 정확도를 향상시 키는 데 어려움이 있었다. 본 연구에서는 이러한 문제를 해결하기 위해 BM25 기반의 Hard Negative Sampling과 Hardness Annealing Policy를 결 합한 새로운 특허 문서 검색 방법을 제안하였다. 제안된 방법은 BM25 알고리즘을 이용해 Hard Negative 샘플을 생성하여 모델이 더욱 어려운 사례를 학습하도록 유도함으로써, 검색 결과의 정확성을 향상시켰다. 또한, Hardness Annealing Policy를 적용하여 샘플의 난이도를 점 진적으로 증가시키는 학습 방식을 도입함으로써, 모델이 학습 초기에는 쉬운 샘플을, 후반에는 어려운 샘플을 학습할 수 있도록 하였다. 이러한 접근 방식 은 모델의 과적합을 방지하고, 다양한 검색 상황에서 높은 일반화 능력을 발 휘하도록 설계되었다. 실험 결과, 제안된 방법은 Precision at N(P@N) 지표에서 기존 방법보다 우수한 성능을 보였다. 특히, P@5에서는 제안된 방법이 57.68%의 정확도를 기록하여 기존 방법의 54.81%보다 2.87%p 높은 성능을 나타냈다. P@10, P@20, P@50, P@100에서도 각각 1.74%p, 1.84%p, 2.44%p, 2.02%p 높은 성 능을 보여, 제안된 방법이 상위 검색 결과뿐만 아니라 전체 검색 결과에서도 높은 정확성을 유지하고 있음을 확인할 수 있었다. 이러한 성능 향상은 사용 자가 검색 초기부터 신뢰성 있는 결과를 얻을 수 있도록 하여, 사용자 경험 을 크게 향상시킬 수 있다. 본 연구는 특허 문서 검색 시스템의 성능을 개선하는 새로운 접근 방식을 제시함으로써, 특허 문서 분석의 효율성을 증대시키고, 지식재산권 보호와 혁 신 촉진에 기여할 수 있는 가능성을 보여주었다. 또한, 제안된 방법은 특허 문서 검색뿐만 아니라 다양한 텍스트 데이터 분석 분야에서도 적용될 수 있 는 잠재력을 가지고 있다. 향후 연구에서는 다양한 데이터셋과 실용적인 응 용 분야에서 제안된 방법의 유효성을 검증하고, 실제 검색 시스템에 적용하 여 그 효과를 확인함으로써, 보다 넓은 범위의 텍스트 검색 및 분석에서의 성능 개선에 기여할 수 있을 것으로 기대된다.
more초록 (요약문)
Patent document retrieval is a critical task that requires identifying relevant information accurately from vast datasets. Traditional methods for patent document retrieval often face limitations in performance and efficiency, particularly in achieving high accuracy in the top search results. This study proposes a novel approach to improve the efficiency and accuracy of patent document retrieval by integrating BM25-based Hard Negative Sampling and Hardness Annealing Policy. The proposed method employs the BM25 algorithm to generate hard negative samples, enabling the model to learn from more challenging cases and thereby enhancing the accuracy of the retrieval results. Additionally, the method incorporates a Hardness Annealing Policy, which gradually increases the difficulty of the samples during training. This approach allows the model to initially learn from easier samples and progressively tackle more difficult ones, preventing overfitting and ensuring high generalization performance across various search scenarios. Experimental results demonstrate that the proposed method outperforms traditional methods in terms of Precision at N (P@N). Specifically, at P@5, the proposed method achieves an accuracy of 57.68%, which is 2.87 percentage points higher than the baseline method's 54.81%. The method also shows improved performance across P@10, P@20, P@50, and P@100, with increases of 1.74 percentage points, 1.84 percentage points, 2.44 percentage points, and 2.02 percentage points, respectively. These findings indicate that the proposed method maintains high accuracy not only in the top search results but also throughout the entire set of retrieved documents. Such improvements significantly enhance the user experience by providing reliable results from the outset of the search. This study contributes a new approach to improving the performance of patent document retrieval systems, thereby enhancing the efficiency of patent document analysis and supporting the protection of intellectual property and the promotion of innovation. The proposed method also has potential applications in various text data analysis fields beyond patent retrieval. Future research will focus on validating the effectiveness of the proposed method across diverse datasets and practical application areas and applying it to real-world retrieval systems to further verify its impact on text retrieval and analysis performance.
more목차
제 1 장. 서론 8
제1절. 연구의 배경 및 목적 8
제2절. 논문의 구성 9
제 2 장. 관련 선행 연구 11
제1절. Bi-Encoder 구조의 텍스트 임베딩 모델 11
제2절. 자연어 처리에서의 Contrastive Learning에 관한 연구 17
제3절. Negative Sampling에 관한 연구 22
제 3 장. BM25 기반 HARD NEGATIVE SAMPLING 29
제1절. BM25 알고리즘 개요 29
제2절. BM25 기반 Hard Negative Sampling의 적용 30
(1) BM25를 활용한 Hard Negative Sampling 30
(2) Informative Negative Sample 31
(3) Hardness Annealing 32
제3절. 소결 34
제 4 장. 실험 및 결과 분석 36
제1절. 데이터셋 구성 및 전처리 36
(1) 데이터셋 구성 36
(2) 데이터 전처리 과정 37
(3) Positive Sampling 39
(4) Negative Sampling 41
제2절. 데이터 셋 구성 43
제3절. 실험 환경 및 방법 44
(1) 실험 환경 구성 44
(2) 학습 파라미터 44
(3) 모델 성능 평가지표 45
제4절. 실험 결과 분석 47
(1) 실험 결과 분석 47
(2) 성능 향상의 원인 분석 48
(3) 실험 결과의 의의 49
제 4 장. 결론 50
참고문헌 52