검색 상세

비디오 스타일 전이를 위한 검색 증강 참조 이미지 선택 기법

Retrieval-Augmented Reference Selection for Video Style Transfer

초록(요약문)

본 연구는 비디오 스타일 전이에 스타일 데이터베이스와 검색 시스템을 도입할 때 고려해야 할 핵심 이슈들을 체계적으로 탐색한다. 기존 연구들은 사용자가 이미 적절한 스타일을 보유하고 있다고 가정하였으나, 실제 응용에서는 수백 개의 스타일 중 선택이 선행되어야 한다. 본 연구는 사용자 의도와 비디오 특성을 동시에 고려하는 2단계 검색 시스템을 제안하고, 이 과정에서 발견되는 임베딩 모델 간 특성 차이, 쿼리 유사도와 비디오 적합도 간 트레이드 오프, 비디오 특성에 따른 효과 변화를 분석한다. WikiArt 200개 스타일과 DAVIS2017 비디오를 사용한 실험 결과, 세 가지 주요 발견을 도출하였다. 첫째, CLIP, SigLIP, DINOv2는 27-43%의 낮은 중복도를 보여 상호 보완적이며, 앙상블은 100% recall을 달성하였다. 둘째, 프레임 투표는 약 30%의 케이스에서 시간적 일관성을 개선하였으나, 이 중 41%는 쿼리 유사도를 일부 포기하는 트레이드 오프를 보였다. 이는 쿼리 유사도만으로 비디오 적합도를 보장할 수 없음을 시사한다. 셋째, 효과는 비디오 특성에 크게 의존하며, 역동적 움직임과 평탄한 배경에서 11.9%p의 비디오 유사도 차이를 보였다. 7명 전문가 대상 탐색적 평가에서 75.0% 선호율(시각적 안정성 85.7%)을 기록하였으나, 케이스별 변동(71.4-85.7%)이 커 조건부 효과를 확인하였다. 본 연구는 스타일 데이터베이스 환경에서 고려해야 할 핵심 요소들을 식별하고, 향후 연구를 위한 기준점과 평가 체계를 제공한다.

more

목차

제 1장 서론 1
1.1 연구배경 1
1.2 연구목적 4
1.3 연구범위및제한사항 5
1.4 논문의구성 6
제 2장 관련연구 7
2.1 이미지스타일전이 7
2.2 비디오스타일전이 10
2.3 멀티모달임베딩모델및스타일검색 12
제 3장 연구방법론 16
3.1 제안시스템개요 16
3.1.1 시스템입력및출력 16
3.1.2 2단계검색프레임워크 17
3.2 스타일데이터베이스구성 20
3.2.1 WikiArt기반데이터수집 20
3.2.2 Artbench-10기반예술사조선정 20
3.2.3 데이터샘플링전략및규모설정 21
3.3 1단계:앙상블기반스타일검색 22
3.3.1 멀티모달임베딩모델 22
3.3.2 개별모델검색및순위화 23
3.3.3 앙상블통합전략 23
3.4 2단계:프레임기반스타일선택및적용 25
3.4.1 비디오프레임임베딩 25
3.4.2 프레임단위투표 26
3.4.3 AdaIN기반스타일전이 27
제 4장 실험결과및분석 31
4.1 실험설정 31
4.1.1 평가지표 31
4.1.2 비교방법정의 33
4.1.3 구현세부사항 34
4.2 앙상블기반후보선정평가 35
4.2.1 단일모델별검색성능 35
4.2.2 모델간 Overlap분석 36
4.2.3 앙상블 Recall결과 37
4.2.4 소결 38
4.3 제안방법의효과분석 39
4.3.1 Video Fitness분석 39
4.3.2 비디오특성별효과차이 40
4.3.3 쿼리유사도트레이드오프 42
4.3.4 실제스타일전이품질분석 42
4.4 프레임샘플링전략의추가분석 48
4.4.1 샘플링전략 49
4.4.2 결과 49
4.4.3 소결 50
4.5 사용자연구 50
4.5.1 실험설계 51
4.5.2 평가결과 52
4.5.3 참여자피드백 54
4.5.4 소결 55
제 5장 결론및향후연구 57
5.1 결론 57
5.2 연구의한계 59
5.3 향후연구방향 60

more