검색 상세

Critical Temperature Prediction of Superconductors Using Chemical Composition-Based Embeddings with Domain Knowledge

초록 (요약문)

재료의 특성과 성능을 정량적으로 예측하는 것은 재료 과학 전반에서 중요한 과제이며, 특히 새로운 물질의 발견 및 설계 과정에서 그 중요성이 더욱 부각되고 있다. 이 중에서도 초전도체의 임계온도(Tc)를 예측하는 문제는 전자 구조, 화학 조성, 결정 구조 등 다양한 상호작용 요인들로 인해 오랜 기간 어려운 과제로 남아 있다. 특히 조성 정보 외에 구조 정보나 실험적 물성 데이터가 확보되지 않은 상황에서는 예측의 난이도가 더욱 증가한다. 본 연구는 이러한 현실적인 제약을 고려하여, 구조 정보나 실험적으로 도출된 물성 값을 사용하지 않고, 화학 조성 기반 벡터 표현을 활용한 초전도체의 임계온도(Tc) 예측용 머신러닝 프레임워크를 제안한다. 구체적으로, 화학식을 기반으로 사전학습된 언어 모델로부터 추출된 MatBERT 벡터 표현, 그리고 원소 수준 그래프를 구성하여 생성된 GAT 및 GIN 기반 GNN(Graph Neural Network) 벡터 표현이 사용되었다. 초기 실험에서는 화학식 이외의 별도 추가 특징 없이 벡터 표현만을 입력으로 하여 XGBoost, LightGBM, 드롭아웃 정규화 MLP 등 세 가지 회귀 모델에 적용하였다. 이어지는 본 실험에서는, 원자 수준의 수치적 특징들과 범주형 정보를 벡터 표현과 결합하였고, 전체 입력 차원을 축소하기 위해 오토인코더 기반 임베딩 압축 기법을 추가로 적용하였다. 실험 결과, 특징 보강은 전반적으로 예측 성능 향상에 기여하였으며, 특히 GAT 기반 압축 벡터 표현과 LightGBM 조합에서 가장 우수한 성능을 나타냈다. 반면, 일부 조합에서는 임베딩 압축 후 소폭의 성능 저하가 관찰되었으나, 전반적인 경향에서는 베이스라인 대비 향상된 성능이 뚜렷하게 나타났다. 본 연구는 조성 기반 벡터 표현과 도메인 지식에 기반한 특징을 결합하는 방식이 구조 정보가 부족하거나 실험적 정보가 제한된 새로운 화합물의 임계온도 예측에도 효과적임을 보여주며, 조성 정보만으로도 실질적인 예측 성능을 확보할 수 있는 가능성을 제시한다. 이는 구조 정보가 확보되지 않은 초기 단계의 물질 탐색 과정에서 초전도 후보 물질을 효율적으로 선별할 수 있는 머신러닝 기반 도구로 활용될 수 있음을 시사한다.

more

초록 (요약문)

Accurately predicting the critical temperature (Tc) of superconductors is a persistent challenge in materials science, particularly when only compositional information is available. This study proposes a machine learning framework for Tc prediction that utilizes composition-based vector representations without relying on structural data or experimentally derived physical properties. Specifically, three types of input representations are evaluated: MatBERT vectors extracted from a pretrained language model based on chemical formulas, and graph-based representations constructed using GAT and GIN architectures on fully connected graphs of chemical elements. In the baseline setting, these vectors were used directly as inputs to three regression models: XGBoost, LightGBM, and an MLP with dropout. In extended configurations, atomic-level numerical descriptors and categorical family labels were concatenated with the embedding vectors, and autoencoder-based dimensionality reduction was applied to produce compressed representations. Experimental results show that the integration of auxiliary features generally improves predictive performance. The best overall results were achieved with compressed GAT vectors combined with LightGBM. These findings demonstrate that combining composition-based vector representations with domain-informed features is effective even in the absence of structural or physical property data, and support the feasibility of Tc prediction for novel compounds using compositional input alone. The proposed framework may serve as a practical machine learning–based screening tool for identifying superconducting candidates during early-stage materials discovery.

more

목차

1. Introduction 1
2. Theoretical Background 3
2.1 Composition-Based Representation Learning in Materials Science 4
2.2 Graph-Based Representations and GNNs for Composition-Based Property Prediction 8
2.3 Feature Engineering Based on Chemical Composition in Materials Informatics 12
2.4 Regression Models for Composition-Based Property Prediction 15
3. Representation-Based Modeling for Predicting Superconductor Critical Temperature 20
3.1 Design of Chemical Composition Embeddings and Baseline Method 20
3.2 Proposed Method A: Embedding Integration with Domain-Informed Features 23
3.3 Proposed Method B: Compressed Embedding with Domain-Informed Features 24
4. Experiments and Analysis 26
4.1 Dataset and Evaluation Setup 26
4.2 Baseline Tc Prediction Using Composition-Based Embeddings 28
4.3 Tc Prediction Using Compositional and Domain-Informed Embeddings 32
4.4 Comparative Summary and Visualization 37
5. Conclusion 40
References 42

more