검색 상세

마스킹 기반 특징 복원을 이용한 비지도 의미론적 분할에 대한 연구

Unsupervised Semantic Segmentation Leveraging Masking-Based Feature Reconstruction

초록 (요약문)

비지도 의미론적 분할은 어떠한 형태의 주석도 없이 이미지 정보 내에서 의미론적으로 유의미한 카테고리를 발견하고 동일한 카테고리의 픽셀끼리 분할하는 것을 목표로 한다. 지도 학습 기반의 의미론적 분할과는 달리 픽셀 정답 레이블은 차치하고 클래스 정답 레이블조차 학습에 사용하지 않기 때문에, 목표를 달성하기 위해서는 알고리즘은 이미지의 각 픽셀에 대해 보다 의미론적으로 뚜렷한 클러스터을 형성할 수 있을만큼 충분히 함축된 정보를 포함하는 특징을 생성할 수 있어야 한다. 또한 이렇게 생성된 특징을 어떤 방식으로 학습에 활용해야 하는지에 대한 어려움이 있다. 최근 연구들은 자기 지도 학습 방법에 대한 지식을 활용하여 비지도 의미론적 분할의 성능을 향상시키는데 집중하였다. 최근 연구와 마찬가지로 본 논문에서도 자기 지도 학습 방법에서 아이디어를 얻어 실험을 진행하였다. 본 논문에서는 이미지에서 추출한 시각적 표현에 마스킹을 한 뒤 시각적 표현을 복원하도록 학습하였다. 이러한 시도는 랜덤 마스킹된 이미지 특징를 복원하는 과정에서, 모델이 이미지의 다양한 부분 간의 관계를 더 잘 이해하고 중요한 특징를 강조하게 되어, 더 풍부하고 일반화된 표현을 학습할 수 있도록 하였다. 기존 시각적 표현을 학습했을 때와 복원된 시각적 표현을 학습했을 때의 성능을 비교한 결과, 복원된 시각적 표현을 학습했을 때 모델의 성능이 향상되었다. 이는 본 논문에서 제안하는 방식이 모델의 성능을 향상시키고 일반화된 표현을 학습하도록 하는 데 효과적임을 보여준다.

more

초록 (요약문)

Unsupervised semantic segmentation aims to discover semantically meaningful categories within image data and segment pixels within the same category, without any form of annotation. Unlike semantic segmentation based on supervised learning, which uses pixel and class labels, unsupervised segmentation does not use class labels for training. Therefore, to achieve its goals, the algorithm must generate features for each pixel that contain enough condensed information to form distinctly semantic clusters. Additionally, there are challenges in how these generated features should be utilized in training. Recent studies have primarily focused on enhancing the performance of unsupervised semantic segmentation by leveraging semantic consistency, the coherence of the images themselves, or prior concepts from self-supervised learning methods. As in previous research, this paper draws on ideas from self-supervised learning methods to conduct experiments. In this study, we applied masking to the visual representations extracted from images and trained the model to restore the visual representations. This approach allows the model to better understand the relationships between different parts of the image and emphasize important features during the process of restoring randomly masked image features, leading to the learning of richer and more generalized representations. By comparing the performance of the model when learning from original visual representations versus restored visual representations, we found that the model's performance improved with the restored visual representations. This demonstrates that the method proposed in this paper is effective in enhancing model performance and facilitating the learning of generalized representations.

more

목차

1 서론 1
2 관련 연구 6
2.1 비지도 의미론적 분할 6
2.2 자기 지도 학습 8
3 제안 방법 10
3.1 이미지 특징 추출 12
3.2 이미지 특징 랜덤 마스킹 복원 18
3.3 클러스터링 23
4 실험 및 분석 27
4.1 실험 데이터 27
4.2 평가 지표 29
4.3 하이퍼파라미터 32
4.4 비교 연구 33
4.5 실험 결과 35
4.6 랜덤 마스킹한 이미지 특징 복원의 효과 40
5 결론 및 향후 연구 42
References 44

more