Image Clustering using Generated Text Centroids
생성된 텍스트 센트로이드를 이용한 이미지 클러스터링
- 주제어 (키워드) Image clustering , deep neural network , multimodal task , vision-language model
- 발행기관 서강대학교 일반대학원
- 지도교수 강석주
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000076289
- UCI I804:11029-000000076289
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 몇 년 동안, 대규모 데이터 셋에 대해 사전 훈련된 심층 신경망이 사전 지식을 통해 데이터 부족 문제 해결을 하여 더 좋은 성능을 달성할 수 있었다. 언어–영상 모델인 Contrastive language–image pretraining (CLIP)은 광범위한 데이터 셋에 사전 훈련되었고, 이를 통해 image recognition에서 높은 성능을 보여주었다. 본 연구에서는 이미지 클러스터링 작업에서 multimodality의 능력을 활용하였다. CLIP 모델의 image encoder로 describability property를 사용하여 single modal에서 multimodal framework로 전환하였는데, 요점은 multimodality의 더 풍부한 특징 표현을 제공할 수 있는 능력에 있다. Text centroids는 기존의 clustering 알고리즘으로 만든 결과들을 pseudo-label로 활용하여 각 클러스터에 속한 이미지들의 공통적인 언어적 묘사를 학습하였다. 결과적으로, image features가 있는 space에 text centroids를 추가하여 그것들에 images을 assign했을 때 기존 클러스터링 알고리즘에 비해 성능을 뚜렷하게 향상시킬 수 있었다. 특히 Stanford40, ImageNet-Dog 같은 complex dataset에 대해 성능이 많이 올랐는데, image feature만을 사용하는 kmeans clustering 알고리즘에 비해 normalized mutual information score 기준으로 상대적으로 각각 34%, 64% 성능 향상을 보여주었다.
more초록 (요약문)
In recent years, deep neural networks pretrained on large-scale datasets have been used to address data deficiency and achieve better performance through prior knowledge. Contrastive language–image pretraining (CLIP), a vision-language model pretrained on an extensive dataset, achieves better performance in image recognition. In this study, we harness the power of multimodality in image clustering tasks, shifting from a single modality to a multimodal framework using the describability property of image encoder of the CLIP model. The importance of this shift lies in the ability of multimodality to provide richer feature representations. By generating text centroids corresponding to image features, we effectively create a common descriptive language for each cluster It generates text centroids assigned by the image features and improves the clustering performance. The text centroids use the results generated by using the standard clustering algorithm as a pseudo-label and learn a common description of each cluster. Finally, only text centroids were added when the image features on the same space were assigned to the text centroids, but the clustering performance improved significantly compared to the standard clustering algorithm, especially on complex datasets. When the proposed method is applied, the normalized mutual information score rise by 32% on the Stanford40 dataset and 64% on ImageNet-Dog compared to the k-means clustering algorithm.
more