Successive Cross-Attention for Decoders in Semantic Segmentation
- 주제어 (키워드) Successive Cross Attention , Light-weight , Semantic Segmentation
- 발행기관 서강대학교 일반대학원
- 지도교수 김경환
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079446
- UCI I804:11029-000000079446
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Semantic segmentation is a computer vision task that predicts the class of each pixel in a given image. Inspired by the success of vision transform- ers (ViT) in various computer vision tasks, transformer-based methods have emerged in semantic segmentation. Previous approaches, especially those that contain transformer-based decoders, have introduced novel attention mecha- nisms based on multi-head attention (MHA) to enhance model accuracy, but they struggle to balance the trade-off with high computational costs. To ad- dress this issue, we propose decoders that focus on one aspect of this trade- off while minimizing performance degradation in the other. For reducing com- putational cost, we introduce MCCFormer, which leverages hierarchical cross- attention (HCA) to utilize small-sized feature maps while preventing accuracy loss. Alternatively, for improving accuracy, we propose CCASeg, which employs convolutional cross-attention (CCA) to capture objects of various sizes while minimizing the increase in computational cost. It is in their approach of suc- cessively aggregating multi-scale features that the shared purpose of the two de- coders lies, helping them achieve their respective goals. The set of experiments on popular datasets demonstrates the superiority of the proposed methods over the state-of-the-art semantic segmentation models, and extensive ablation stud- ies prove the effectiveness of proposed ideas.
more초록 (요약문)
Semantic segmentation은 주어진 이미지에서 각 픽셀들의 클래스를 예측하는 컴퓨터 비전 과제이다. 최근 다양한 컴퓨터 비전 과제에서 비전 트랜스포머 (ViT)를 이용하는 방법들이 성공을 거두면서, semantic segmentation에서도 트랜스포머 기반의 방법들이 등장하고 있다. 특히, 트랜스포머 기반의 디코더를 제안하는 기존의 방법들은 multi-head attention (MHA) 기반의 새로운 어텐션 메커니즘을 제안하여 모델의 정확성을 향상시켰지만 높은 계산량을 요구하면서, 정확성과 계산량 사이의 트레이드 오프(trade-off)에서 적절한 균형에 도달하지 못하였다. 이를 극복하기 위해, 우리는 정확성과 계산량 사이에서 하나의 측면에 집중하되, 다른 한쪽의 성능 하락을 최소화하는 방법들을 제안한다. 계산량의 감소를 위해, 우리는 작은 크기의 피처 맵을 활용하면서 동시에 정확성의 손실이 없도록 돕는 hierar-chical cross-attention (HCA)를 활용하는 MCCFormer를 제안한다. 반면 정확성의 향상을 위해, 다양한 사이즈의 물체를 포착할 수 있도록 하면서 동시에 계산량의 증가를 최소화하는 convolutional cross-attention (CCA)를 활용하는 CCASeg 를 제안한다. 따라서, 우리는 다양한 공개된 데이터 셋들에 대한 실험들을 통해 제안하는 방법들이 기존 state-of-the-art (SOTA)보다 우수한 성능을 보임을 입증한다.
more목차
1 Introduction 1
2 Related Work 6
2.1 Transformer-based Encoder and Decoder 6
2.2 Semantic Segmentation 7
3 Proposed Methods 8
3.1 MCCFormer 8
3.1.1 Overall Architecture 10
3.1.2 Accumulated Semantics Extractor (ASE) 10
3.1.3 Semantic Combining Module (SCM) 12
3.2 CCASeg 14
3.2.1 Convolutional Cross-Attention Block 17
3.2.2 Successive Feature Integration (SFI) 18
3.2.3 Convolutional Cross-Attention Layer 19
4 Experiments 21
4.1 MCCFormer 22
4.1.1 Comparison with State-of-the-Art Methods 22
4.1.2 Ablation study 24
4.2 CCASeg 29
4.2.1 Comparison with State-of-the-Art Methods 29
4.2.2 Ablation Study 34
Conclusion 38
Bibliography 39

