검색 상세

단백질 서열과 텍스트 정보 기반 오토마타 종 분류기 : Automata Species Classifier based on Protein Sequences and Text Information

  • 발행기관 서강대학교 대학원
  • 지도교수 양지훈
  • 발행년도 2007
  • 학위수여년월 200702
  • 학위명 석사
  • 학과 및 전공 컴퓨터학
  • 식별자(기타) 000000103596
  • 본문언어 한국어

초록/요약

단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히, 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단백질은 3차원적 구조를 가지고 있기 때문에 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없다. 게다가, 단백질 서열은 종 안에서 서로 비슷할 뿐만 아니라 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 따라서 유사한 단백질 서열들이라고 해도 같은 종이라고 말하기는 어렵다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 우리는 우선, 단백질들을 텍스트 정보를 이용해서 기능별로 분류한다. 그리고 각각의 클러스터에 대해 일치와 끊김을 찾는다. 이 정보는 후에 오토마타를 만드는데 사용된다. 이 오토마타와 그리고 오토마타의 전이 규칙을 자연 진화상 빈번하게 일어나는 아미노산의 치환, 삽입, 삭제 현상을 반영하도록 일반화 시켜준다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과, 상대적으로 좋은 성능을 얻을 수 있었다.

more

초록/요약

Protein classification is one of the major challenge in modern biology. There are abundant of protein databases maintaining a high quality that serves richly and accurately annotated protein sequences. Thanks to these databases, many classification approaches based on various physicochemical properties and annotations have been researched. Especially, researches on protein sequences consisted in amino acids come to life because they are important traces of evolutionary history of the proteins which is deeply related in protein classification problem. Though protein sequences are important features of the protein classification problem, usually a simple protein sequence does not fully provide contextual information on the protein as it actually has three-dimensional structures. Moreover, as we know, protein sequences are not only similar within a species, but also similar across species according to its functional properties. Therefore, we cannot say that similar protein sequences always have a same species. Motivated by these, we propose a new systemic approach of species classification what we call automata species classifier. We first cluster proteins by functional properties using its textual information as classification features. Then, to each clusters, we find out matches and gaps which will be used for building an automata. The automata and its transfer rules are generalized to reflect amino acid substitutions, insertions and deletions which are frequently happen in the evolutionary steps of the proteins in nature. We performed experiment for performance evaluation on clustering and species classification process of the system and approached to good performance.

more