검색 상세

유전자 유사도 기반 협력적 필터링을 이용한 암 관련 유의한 유전자 검출 방법

A Method of Identifying Cancer-Related Significant Genes Using Gene Similarity-Based Collaborative Filtering

초록/요약

데이터의 양과 종류가 많아지고, 기계학습 및 딥러닝 기술이 급속도로 발전함에 따라 이 기술을 통해 생물학적 문제를 해결하고자 하는 시도들이 이루어지고 있다. 특히 암 진단 및 예후 예측 분야에서 바이오 마커를 발굴하고자 하는 연구가 활발하다. 하지만 생물학 도메인의 데이터는 데이터의 크기에 비해 정보가 적게 들어있는 희소 데이터 문제(Sparse Data Problem)를 가지고 있어 연구에 어려움이 있다. 이에 본 논문에서는, 최근 전자 상거래 분야에서 상품 추천을 위해 널리 사용되고 있는 협력적 필터링 방법을 도입하여 유전자 마커 추천에 활용하였다. 그 이유는 구매 이력이 적은 희소한 데이터에서도 잘 적용되고 있기 때문이다. 따라서 본 연구에서는 효율적인 유전자 기반 협력적 필터링 방법을 제안하고, 또한 최적의 유전자 마커를 발굴하는 방법을 제안한다. 본 연구에서는 대표적인 유전자 발현 데이터인 RNAseq과 Microarray 데이터를 사용하여 신세포암의 병기 진단 그리고 유방암의 예후 예측을 최종 목표로 한다. 예측을 위한 바이오 마커를 발굴하기 위해, 먼저 세 가지의 유전자 유사도 계수를 기반으로 하여, 클래스별 Top-N개의 유전자를 협력적 필터링 방법으로 추천받는다. 그 후 추천된 각 클래스별 유전자들의 합집합을 최종 특징 집합으로 사용하여 분류를 위한 기계학습 모델을 구축한다. 모델에서 가장 높은 분류 성능을 보인 집합을 최적의 유전자 마커로 발굴하였다. 제안한 방법으로 진행한 실험은 특징선택을 진행하지 않고 유전자 특징들을 모두 사용한 기계학습 모델보다 높은 성능을 보였다. 그리고 기존의 상관관계 기반으로 특징선택을 진행한 타 연구보다 좋은 성능을 보였다.

more

초록/요약

As the size and type of data increased, machine learning and deep learning technology developed rapidly. Recently, there are attempts to solve biological problems through this technology. Especially, research is being conducted to discover biomarkers in the field of cancer diagnosis and prognosis prediction. However, the data in the biological domain has a sparse data problem with less information than the size of the data. In this paper, we introduce a collaborative filtering method which is widely used for product recommendation in the field of electronic commerce and used it to recommend genetic markers. This is because it is applied well to sparse data with a small history of purchasing. Therefore, we propose an efficient gene-based collaborative filtering method and propose a method for finding optimal gene markers. The aim of this study is to diagnose the stage of renal cell carcinoma and to predict the prognosis of breast cancer by using RNAseq and Microarray data which are representative gene expression data. To identify biomarkers for prediction, Top-N genes of each class are recommended by collaborative filtering method based on three gene similarity coefficients. We then construct a machine learning model for classification using the union of the recommended genes as the final feature set. The optimal genetic markers were used to identify the set with the highest classification performance in the model. Experiments conducted by the proposed method showed higher performance than the machine learning model using all the gene features without performing feature selection. In addition, it showed better performance than the other studies based on existing correlation based on feature selection.

more