검색 상세

예방적 품질관리 진단을 위한 최적의 문서 유사도 분석 모델

Optimal document similarity analysis model for preventive quality control diagnosis

초록 (요약문)

공공기관 예방적 품질관리 업무를 적은 인원으로 효율적으로 하기 위해서 제안요청서 내 데이터 요구사항을 자동으로 검출하는 시스템을 개발하고, 이를 위해 단일 레이블 분류와 다중 레이블 분류의 성능을 비교한다. 기존의 수작업 검토 방식은 많은 시간과 비용을 요구하며, 검토의 정확성에도 한계가 있습니다. 이를 개선하기 위해 LSTM, XGBoost, 그리고 BERT 모델을 사용하여 자동화된 검출 시스템을 구축하였다. 512개의 제안요청서 텍스트 데이터를 수집하고, 각 텍스트 데이터에 대해 9개의 데이터 요구사항이 포함되어 있는지를 레이블링하여 모델을 학습시켰다. 전처리 과정에서는 정규 표현식과 자연어 처리 기법을 비교하였으며, NLP 기법을 사용하여 데이터 요구사항을 보다 정확하게 분리하였다. 성능 평가 지표로는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), 그리고 F1 스코어(F1 Score)를 사용하였다. LSTM과 XGBoost는 단일 레이블 분류에서, BERT는 다중 레이블 분류에서 적용되었다. 실험 결과, BERT 모델이 다중 레이블 분류 작업에서 가장 높은 성능을 보였으며, 이는 문서의 복잡한 레이블 구조를 효과적으로 처리할 수 있음을 시사한다.

more

초록 (요약문)

In order to efficiently perform preventive quality control work in public institutions with a small number of people, we develop a system that automatically detects data requirements within the request for proposal, and compare the performance of single-label classification and multi-label classification. The traditional manual review process is time-consuming, costly, and limited in accuracy. To improve this, an automated detection system was built using LSTM, XGBoost, and BERT models. We collected 512 proposal texts and labeled each text with nine data requirements to train the models. In the preprocessing phase, regular expressions and natural language processing techniques were compared, with NLP techniques being used to more accurately separate the data requirements. Performance evaluation metrics included Accuracy, Precision, Recall, and F1 Score. LSTM and XGBoost were applied for single-label classification, while BERT was used for multi-label classification. Experimental results demonstrated that the BERT model outperformed in multi-label classification tasks, effectively managing complex label structures in documents.

more

목차

제 1 장 서론 1
제 1 절 연구 배경 및 필요성 1
제 2 절 연구 목적 1
제 3 절 연구 방법 1
제 4 절 논문의 구성 2
제 2 장 이론적 배경 3
제 1 절 토큰화 방법 3
(1) NLP 기반 토큰화 4
(2) 정규표현식 기반 토큰화 4
제 2 절 단일 레이블 분류 모델 5
(1) Long Short-Term Memory (LSTM) 5
(2) eXtreme Gradient Boosting (XGBoost) 8
제 3 절 다중 레이블 분류 모델 10
(1) Bidirectional Encoder Representations from Transformers (BERT) 10
제 4 절 요약 12
제 3 장 데이터 및 모델링 13
제 1 절 데이터 수집 13
제 2 절 데이터 전처리 19
제 3 절 모델 구축 19
제 4 절 실험 설정 및 가설 검증 22
제 5 절 실험 결과 25
제 4 장 결론 31
제 1 절 모델의 성능 31
제 2 절 예상되는 문제점 32
제 3 절 실험 방법의 한계점 32
제 4 절 후속 연구 방향 33
제 5 절 결론 33
참고문헌 35

more