검색증강생성과 멀티벡터 데이터베이스를 활용한 대규모언어모델 기반 미디어 연령 자동 분류 및 설명 생성 시스템
Media Age Classification and Explanation Generation System Based on Large Language Models Using Retrieval-Augmented Generation and Multi-Vector Databases
- 주제어 (키워드) 대규모 언어 모델 , 멀티 벡터 데이터베이스 , 검색증강생성 , 대규모 데이터 , 프롬프트엔지니어링 , Large Language Model , Multi-vector database , RAG , Long-form Data , Prompt Engineering
- 발행기관 서강대학교 일반대학원
- 지도교수 구명완
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000079729
- UCI I804:11029-000000079729
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 연구는 멀티벡터 데이터베이스 기반 검색증강생성 프레임워크를 활용하여 영화 대본의 연령 등급을 판정하고 이에 대한 상세한 설명을 생성하는 시스템을 제안한다. 영화 대본은 긴 형식의 비구조화된 텍스트로 구성되어 있어, 유해 정보를 수동으로 분석하거나 간단한 자동화 도구로 처리하기에는 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 긴 문서 내에서 연령 등급 판정에 필요한 핵심 정보를 효과적으로 탐색 및 압축할 수 있는 검색증강생성 방식을 활용한다. 본 시스템은 유해성 평가에 필요한 핵심 정보를 신속히 식별하고, 이를 기반으로 연령 등급을 판정하는 동시에 그 근거를 설명하는 세부적인 내용을 생성한다. 특히, 긴 대본의 정보를 원본 토큰 중 9\%로 압축함으로써 방대한 텍스트 데이터를 효율적으로 처리하는 동시에 분석 과정의 계산 자원 소모를 최소화하였다. 실험 결과, 제안된 프레임워크는 기존 영화 등급 분류 모델의 성능을 42.37\%에서 76.27\%로 크게 개선하였다. 이 프레임워크는 대규모 데이터 환경에서도 높은 성능과 설명 가능성을 유지하며, 연령 등급 판정을 자동화하면서도 결과의 신뢰도를 높인다. 이를 통해 이를 통해 부적절한 콘텐츠로부터 아동과 소외된 계층을 보호하고, 보다 신중한 콘텐츠 선택을 지원한다.
more초록 (요약문)
This study proposes a system that utilizes a multi-vector database-based search-augmented generation framework to determine the age ratings of movie scripts and generate detailed explanations. Movie scripts are lengthy and unstructured texts, making it challenging to analyze harmful content manually or process it using simple automated tools. To address these challenges, this study employs a search-augmented generation method that effectively identifies and compresses key information required for age rating determination within long documents. The proposed system quickly extracts essential information for harmfulness evaluation, determines the appropriate age rating, and generates detailed explanations to justify the decision. Notably, the system compresses the information to 9\% of the original tokens in the script, enabling efficient processing of large-scale text data while minimizing computational resource consumption. Experimental results show that the proposed framework significantly improves the performance of existing movie rating classification models from 42.37\% to 76.27\%. The framework maintains high performance and explainability even in large-scale data environments, automating age rating determination while ensuring the reliability of the results. This approach helps protect children and marginalized groups from inappropriate content and supports more informed content selection decisions.
more목차
제 1장 서론 1
1.1 미디어 자동등급분류 시스템 연구의 필요성 1
1.2 장문 텍스트 분석의 어려움 2
1.3 대규모 언어 모델을 통한 판단 근거 생성으로 이해 가능한 AI 시스템 구축 3
1.4 본 연구의 기여점 4
1.5 개요 5
제 2장 관련연구 7
2.1 기존 미디어 자동 등급 분류 7
2.1.1 유해 텍스트 분류 모델 7
2.1.2 장문 텍스트 처리에 효율적인 기존 방법론 9
2.2 검색증강생성을 활용한 환각증세 감소 방법론 11
2.2.1 기존 연구의 한계점 11
2.2.2 쿼리 최적화 13
2.2.3 쿼리 리랭킹 15
2.3 대규모 언어모델의 프롬프트 엔지니어링 방법론 17
2.3.1 추론적 사고 방법론 18
2.3.2 앙상블 기반 방법론 19
2.3.3 분해 기반 방법론 20
2.3.4 자기비판 기반 방법론 21
2.4 대규모언어모델에 기반한 AI에이전트 방법론 22
2.4.1 에이전트의 주요특징 23
2.4.2 대규모언어모델기반 에이전트 구조 24
제 3장 검색증강생성 기반 대규모언어모델을 활용한 미디어 등급 자동 분류 27
3.1 단계1: 전체정보에서 등급분류에 필요한 정보 추출 29
3.1.1 분류모델을 활용한 유해텍스트 29
3.1.2 유해정보와 관련있는 속성 정보 31
3.1.3 유해정보에 집중되어있는 줄거리 35
3.1.4 입력정보 재구성 후 토큰수 비교 36
3.2 단계2 : 검색증강생성기반 최종 등급분류와 설명생성 37
3.2.1 연령등급별 멀티벡터데이터베이스 구축 37
3.2.2 데이터베이스에서 쿼리와 유사정보 검색 39
3.2.3 프롬프트 엔지어링 기법을 활용한 등급 분류 39
제 4장 실험결과 47
4.1 데이터셋 47
4.1.1 한국어영화 데이터셋 47
4.1.2 영어영화 데이터셋 49
4.2 실험환경 및 모델 50
4.2.1 유해 텍스트 분류 50
4.2.2 최종 영화등급 분류 50
4.3 실험결과 51
4.3.1 영화등급분류 성능 51
4.3.2 유해텍스트 세그먼트 분류 52
4.3.3 벡터데이터베이스 구조에 따른 성능 비교 53
4.3.4 벡터데이터베이스 구성요소에 따른 성능 비교 55
4.3.5 동적프롬프트와 정적 프롬프트 비교 55
4.3.6 결과 생성 시 프롬프트의 구성에 따른 성능 비교 57
4.3.7 생성 결과 성능 측정 60
제 5장 결론 62
참고문헌 63