Curriculum Learning with Class-label Composition for Weakly Supervised Semantic Segmentation
약지도 기반 시멘틱 세그멘테이션을 위한 클래스 레이블 구성을 이용한 커리큘럼 학습
- 주제어 (키워드) Deep learning , Weakly-supervised learning , Computer vision , Semantic segmentation , Curriculum learning; 딥러닝 , 약지도 학습 , 컴퓨터 비전 , 시멘틱 세그먼테이션 , 커리큘럼 학습
- 발행기관 서강대학교 일반대학원
- 지도교수 최준석
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076718
- UCI I804:11029-000000076718
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
Weakly Supervised Semantic Segmentation (WSSS) aims to build a segmentation network using only weak labels. In WSSS training using image-level labels, a classifier is trained with multi-labeled images, as the task assumes the presence of multiple classes. The classifier plays a crucial role due to its impact on the quality of the derived pseudo-masks. However, training the classifier with the multi-labeled images presents two following challenges: (1) The presence of frequently co-occurring classes (e.g. chair and dining table) introduces a spurious correlation, making it difficult for the classifier to determine the location of each class. (2) Such multi-labeled datasets often exhibit imbalanced class distributions, which can create challenges during the training process. To tackle these issues, we propose a curriculum learning strategy based on the length and frequency of class-label composition. This strategy gradually reduces the influence of images with spurious correlation between classes and ensures that classes with fewer images appear more frequently during training. Our extensive experiments demonstrate that, when applied to eight WSSS methods, our curriculum strategy consistently enhances the quality of the pseudo-labels and segmentation performances, and also reduces the required computational resources for training.
more초록
약지도 기반 시멘틱 세그멘테이션 (WSSS)은 약한 레이블을 이용하여 세그멘테이션 네트워크를 만드는 것을 목표로 한다. 이미지 레이블을 이용한 WSSS 에서는 multi-label 이미지를 이용하여 classifier 학습을 진행한다. 여기서 classifier 는 pseudo-mask 의 품질을 결정하는 데에 큰 영향을 미친다. 그러나, multi-label 이미지로 classifier 를 학습시킬 때, 극복해야할 문제점 두가지가 존재한다: (1) 식탁과 의자와 같이 자주 함께 존재하는 클래스들은 서로 spurious correlation 관계를 가지며, 그렇기에 classifier 가 각각의 클래스를 구분하기가 어려워진다. (2) multi-label 이미지를 가지는 데이터 셋은 대체로 클래스의 분포가 불균형 하며, 이는 일부 클래스가 제대로 학습되지 않는다는 문제를 일으킨다. 두 문제를 다루기 위해서, 우리는 이미지가 가지고 있는 클래스 레이블 구성의 길이와 빈도 수를 기반으로 한 커리큘럼 학습 방법을 제안한다. 이 방법은 학습과정에서 spurious correlation 을 가지는 클래스의 영향을 점진적으로 감소시키며, 적은 이미지 수를 가지는 클래스를 학습에 더 자주 포함시킨다. 본 논문의 실험은 우리의 방법을 8 개의 SOTA 기술들에 적용했을 때 모두 pseudo- label 과 세그멘테이션 성능을 증가시킴을 증명하며, 학습에 필요한 리소스를 효과적으로 줄임을 보인다.
more목차
I. Introduction 1
II. Related Work 4
A. Weakly Supervised Semantic Segmentation 4
B. Curriculum Learning 5
III. Methodology 7
A. Motivation 7
B. The Proposed Method 8
III.B.1 Scoring & Ordering 9
III.B.2 Pacing Function 10
IV. Experiments 13
A. Implementation Details 14
IV.A.1 Localization Maps 14
IV.A.2 Semantic Segmentation 15
B. Compatibility with State-of-the-Art Methods 16
C. Analysis of our method 21
D. Qualitative Results 27
V. Conclusion 28
References 29