객체 마스크 단위 전역 특징 정렬을 활용한 위장 객체 탐지 모델 성능 향상 방법
A Method for Enhancing Camouflaged Object Detection Performance via Mask-level Global Feature Alignment
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000082393
- UCI I804:11029-000000082393
- 본문언어 한국어
- 저작권 논문은 저작권에 의해 보호받습니다.
초록(요약문)
실시간 위장 객체 탐지(Real-time Camouflaged Object Detection) 모델은 30FPS 이상의 속도를 가지면서, 위장 객체에 특화된 탐지 능력을 갖춘 모델을 의미한다. 이는 위장된 객체에 대한 즉각적인 반응이 필수적인 국방, 감시 시스템에 서 핵심적인 기술이다. 하지만 일반 객체와 달리 위장된 객체는 배경과 구분이 모호하여 정확한 탐지를 위해 추가적인 모델 설계가 필요하고, 실시간 처리를 위해 서는 연산 효율성까지 요구되어 상충되는 문제가 존재한다. 본 논문에서는 실시간 객체 탐지 모델의 위장 객체에 대한 정확도를 향상시키기 위해, 실시간 객체 탐지 모델인 D-FINE 모델을 기반으로 ‘객체 마스크 단위 전역 특징 정렬을 활용한 효과적인 인코더 학습 방법’을 새롭게 제안한다. 제안하는 방법은 학습 시, 객체 영 역을 정확히 추출하기 위해 각 스케일의 특징 맵 내 정답 객체 영역에서 채널 방향 L2 정규화를 한 값이 가장 큰 상위 K개(Top-K)의 핵심 요소를 동적으로 선택한 다. 이후 이로부터 각 스케일에서의 객체를 대표하는 '프로토타입 벡터'를 생성하 고, 분포 손실 함수를 통해 하위 스케일(local, medium)의 프로토타입을 상위 글로벌 스케일의 프로토타입과 KL divergence로 정렬시킨다. 제안하는 방법은 추 론 시에는 추가 연산 비용 없이, 오직 학습 과정에서만 다중 스케일 특징 맵의 의미론적 일관성을 강화한다. 제안 방법을 활용해 학습한 모델은 군사용 위장 객체 탐지 데이터셋인 MHCD2022에서 기존 모델 대비 우수한 성능을 나타낸다 . 이는 제안하는 방법이 객체 탐지 모델의 위장 객체에 대한 다중 스케일 특징 표현을 효과적으로 강화하여, 위장 객체의 탐지 정밀도를 크게 높일 수 있음을 보여준다. 주제어: 실시간 위장 객체 탐지, 다중 스케일 특징, 특징 정렬, 프로토타입
more초록(요약문)
Real-time Camouflaged Object Detection models are defined as those capable of operating at speeds exceeding 30 FPS while possessing specialized detection capabilities for camouflaged objects. This technology is critical in defense and surveillance systems where immediate reactions to concealed targets are essential. However, unlike general objects, camouflaged objects have ambiguous distinctions from their background, requiring additional model design for accurate detection. This creates a conflict with the computational efficiency required for real-time processing. In this paper, to improve the accuracy of camouflaged object detection based on the real-time object detection model D-FINE, we propose a novel "effective encoder training method utilizing object mask-level global feature alignment." During training, to accurately extract object regions, the proposed method dynamically selects the Top-K key elements with the largest channel-wise L2 normalized values within the ground truth object area in the feature maps of each scale. Subsequently, "prototype vectors" representing the object at each scale are generated, and the prototypes of lower scales (local, medium) are aligned with the prototype of the upper global scale using KL divergence through a distribution loss function. This method strengthens the semantic consistency of multi-scale feature maps solely during the training process, incurring no additional computational cost during inference. The model trained using the proposed method shows superior performance compared to existing models on the MHCD2022 military camouflaged object detection dataset. This demonstrates that the proposed method effectively enhances the multi-scale feature representation for camouflaged objects, significantly improving detection precision. Topics : Real-time Camouflaged Object Detection, Multi-scale Feature, Feature Alignment, Prototype
more목차
1. 서론 1
2. 연구 배경 4
2.1 실시간 위장 객체 탐지 문제 정의 4
2.2 관련 연구 5
2.2.1 실시간 객체탐지 모델 5
2.2.2 위장 객체 탐지 모델 7
2.2.3 특징 정렬에 관한 연구 8
2.3 기존 연구 적용 시의 문제점 10
3. 객체 마스크 단위 전역 특징 정렬을 활용한 위장 객체 탐지 모델 성능 향상 방법 .. 12
3.1 전체 시스템 구조 12
3.2 객체 마스크 단위 전역 특징 정렬을 위한 세부 시스템 설계 방법 14
3.2.1 관심 영역 추출기 설계 14
3.2.2 프로토타입 정렬 모듈 설계 17
4. 실험 및 분석 21
4.1 실험 환경 및 데이터셋 21
4.2 실험 및 성능 분석 24
4.2.1 위장 객체 탐지 성능 분석 24
4.2.2 일반 객체에 대한 효과성 분석 32
4.3 관련 연구와의 비교. 34
5. 결론 및 향후 과제 39
6. 참고 문헌 42

