DINOCO: Learning Generalizable Representation from Coordinates Without Supervision
DINOCO: 비지도 학습을 통한 좌표 기반 범용 표현 학습 프레임워크
- 주제어 (키워드) Self-Supervised Learning , Coordinate Sets , Permutation Invariance , Representation Learning , View-based Distillation , 자기지도 표현 학습 , 좌표 집합 , 순서 불변성 , 표현학습 , 뷰-기반 증류학습
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 양지훈
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000081807
- UCI I804:11029-000000081807
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Self-supervised learning has emerged as a powerful framework for learning meaningful representations without labeled supervision, particularly in structured modalities such as vision and language. However, its applicability to unordered coordinate-based data remains largely unexplored. In this research, we introduce DINOCO, a novel self-supervised learning framework tailored for learning generalizable representations from unordered 2D coordinate sets. Inspired by DINO, our method adapts self-distillation and view-based learning to operate on point sets, without relying on spatial continuity, tokenization, or modality-specific heuristics. DINOCO leverages structure-preserving augmentations, global-local contrastive objectives, and centering and regularization techniques to learn representations that generalize across unseen domains. Notably, our training is conducted on fully synthetic, uniformly sampled coordinate sets without semantic labels or structured priors. We evaluate DINOCO on three coordinate-based benchmarks derived from MNIST and Fashion-MNIST and show that it outperforms raw input and untrained encoders in k-NN classification. Our findings suggest that it is possible to learn semantically meaningful and transferable features purely from the structure of random coordinate distributions.
more초록 (요약문)
본 연구에서는 DINO에서 영감을 받아, 순서가 없는 좌표 집합 데이터를 위한 self-supervised representation learning 프레임워크인 DINOCO를 제안한다. 기존 self-supervised 방식은 일반적으로 이미지나 텍스트처럼 구조적 연속성과 의미 있는 분포를 가진 데이터에 적용되어 왔다. 반면, DINOCO는 구조적 정보가 전혀 없는 단순한 2차원 랜덤 좌표 집합만으로도 유의미한 표현을 학습할 수 있음을 보여준다. 우리는 Transformer Encoder 기반 모델을 사용하여 입력 순서와 무관하게 좌표 간의 구조적 관계를 학습하고, 구조 보존 기반의 multi-crop view와 masking 전략을 통해 global 및 local 수준의 표현을 정렬한다. 학습된 표현의 유효성을 검증하기 위해 Point MNIST, Point Fashion MNIST, Point Fashion MNIST MEAN 세 가지 데이터셋에 대해 k-NN 분류 실험을 수행하였으며, raw coordinate에 비해 높은 Top-1 및 Top-5 정확도를 달성하였다. 본 연구는 라벨은 물론, 의미 있는 데이터 분포조차 제공되지 않은 조건에서 self-supervised learning이 가능함을 실증하며, 더 일반화된 형태의 representation learning 가능성을 제시한다.
more목차
I. Introduction 1
II. Related Works 3
2.1 Learning Representations from Point Sets 3
2.2 Self-Supervised Learning in Vision and Language 4
III. Method 7
3.1 Self-Distillation Framework 11
3.2 View Construction and Structure-Preserving Augmentation 14
3.3 Global-Level Objective 17
3.4 Local-Level Objective 19
3.5 Regularization with Sinkhorn-Knopp and KoLeo 20
3.6 Learning from Unstructured Random Coordinates 21
IV. Experiments and Results 23
4.1 Datasets 23
4.2 Training Setup 24
4.3 k-NN Classification 25
4.4 Representation Visualization 26
4.5 Summary 29
V. Conclusion 30
VI. Future Work 31
References 32

