객체 레이아웃 기반 유사 이미지 검색을 위한 딥러닝 특징벡터 생성 방법
A Deep Learning Feature Vector Generation Method for Object Layout-Based Similar Image Search
- 주제어 (키워드) 딥러닝 , 이미지 검색; Deep Learning , Image Retrieval
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제URI http://www.dcollection.net/handler/sogang/000000077037
- UCI I804:11029-000000077037
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
이미지검색은사용자질의를기반으로가장적합한이미지를반환하는태스크 다.기존의텍스트,이미지,스케치질의방식은객체위치와크기묘사에한계가 있다. 이에, 본 논문에서는 객체 레이아웃 질의 기반 검색 방법을 제안한다. 이 방법은기존연구[1]에서발생한객체특징벡터생성의문제를해결한다.먼저, 유사도 비교시 질의 영역에 국한된 특징벡터를 추출하는 마스킹 방법을 사용 한다.이방법은이미지에대해추출된 CNN특징벡터에서질의캔버스의특정 영역에초점을맞출수있게한다.또한, Layout Diffusion[2]이미지생성모델을 이용해 레이아웃 기반의 픽셀 수준 이미지를 생성해 질의 특징벡터를 생성하 는방법을제안한다.생성된이미지에대한특징벡터는 CNN특징추출기[3]로 얻는다. 본 논문에서는 또한 CLIP[4]을 활용한 객체 명 임베딩 방법을 제안한 다. 마지막으로, 생성된 특징벡터에 정규화를 적용하는 방법을 제안해 검색의 정확도를 향상시키며, 이를 통해 mAP@10 기준 0.772, nDCG@10 기준 0.671 의성능을달성한다.
more초록
Image search is a task that aims to return the most suitable image based on user queries. Traditional methods like text, image, and sketch queries have limitations in describing the position and size of objects. To address this, this paper proposes an image search method based on object layout queries. This approach resolves is- sues with generating accurate feature vectors for objects, as identified in previous research [1]. Firstly, a masking method is used to extract feature vectors limited to the query area during similarity comparison. This method allows focusing on specific areas of the query canvas using feature vectors extracted from the image by CNN. Additionally, the paper proposes generating query feature vectors by creating pixel-level images based on layouts using the Layout Diffusion [2] im- age generation model. The feature vectors for these generated images are obtained using a CNN feature extractor [3]. The paper also suggests an object naming em- bedding method using CLIP [4]. Finally, it proposes applying normalization to the generated feature vectors to enhance search accuracy, achieving performance metrics of 0.772 in mAP@10 and 0.671 in nDCG@10.
more목차
1 서론 1
2 관련 연구 및 문제점 분석 5
2.1 이미지 검색에서의 질의 방법들 5
2.1.1 텍스트 질의 기반 이미지 검색 5
2.1.2 유사 이미지 질의 기반 이미지 검색 6
2.1.3 스케치 질의 기반 이미지 검색 7
2.1.4 레이아웃 기반 이미지 검색 8
2.2 객체 명 임베딩 9
2.2.1 word2vec 9
2.2.2 CLIP text encoder 10
2.3 Layout Diffusion 10
2.4 기존 연구 및 문제점 분석 11
3 객체 레이아웃 기반 질의 특징 벡터 생성 방법 16
3.1 질의 영역 특징 벡터 추출을 위한 마스킹 방법 18
3.2 이미지 생성 모델을 통한 질의 특징 벡터 생성 21
3.3 시각적 특징 합성을 통한 질의 특징 벡터 생성 23
3.3.1 CLIP 텍스트 인코더를 통한 객체 명 임베딩 방법 24
3.3.2 특징 벡터 정규화 방법 26
4 실험 및 분석 28
4.1 실험 데이터 및 평가 지표 28
4.2 성능 평가 및 분석 31
4.2.1 질의 영역 특징 벡터 추출을 위한 마스킹 방법 성능 분석 31
4.2.2 이미지 생성 모델을 통한 질의 특징 벡터 생성 방법 성능 분석 34
4.2.3 시각적 특징 합성을 통한 질의 특징 벡터 생성 방법 성능 분석 37
4.2.4 실험 결과에 대한 종합 분석 41
4.3 관련 연구와의 비교 44
5 결론 및 향후 연구 45
6 참고 문헌 47