검색 상세

의생물학 문헌에 보고된 후보 암표지자 정보 추출 알고리즘 개발 : Development of an Algorithm for Extracting the Information of Candidate Tumor Markers Reported in Biomedical Texts

  • 발행기관 서강대학교 정보통신대학원
  • 지도교수 황선영
  • 발행년도 2006
  • 학위수여년월 200608
  • 학위명 석사
  • 학과 및 전공 정보통신대학원
  • 식별자(기타) 000000103220
  • 본문언어 한국어

초록/요약

2003년 완료된 인간 유전체 사업 이후 암 발현과 관련된 단백질 및 유전자 정보가 대량으로 만들어지고 있다. 본 연구에서는 암표지자와 암과의 관계정보를 의생물학 문헌으로부터 자동 추출하는 알고리즘과 시스템을 개발하고자 하였다. 암표지자 인식은 사전검색 방법과 기계학습 방법의 하나인 support vector machine(SVM)을 이용하였다. 단백질, DNA, RNA, 탄수화물 및 지질 등 5 종류의 후보 암표지자를 인식하기 위하여 5개의 SVM을 구성하였다. 암의 명칭은 MeSH 사전을 이용하였다. 160개의 문헌에서 전문가 지식을 사용하여 관계 키워드 및 필터링 키워드를 선정하였고 시스템에서 이를 이용하여 관계정보를 추출하도록 하였다. 관계정보는 파스트리에서 암표지자, 암 및 관계 키워드가 적절한 위치에 있는 경우에 추출하였다. 별도의 77개 초록으로부터 시스템의 성능을 평가한 결과 관계키워드 및 필터링 키워드를 사용한 경우 precision 94.38%, recall 66.14%인 반면, 전문가 지식을 사용하지 않은 경우 precision 49.16%, recall 69.29%의 성능을 보였다. 본 연구를 통하여 암표지자 관련 연구문헌으로부터 전문가 지식을 접목하여 실제 연구에 활용 가능한 성능을 가지는 관계정보 자동추출 시스템을 개발할 수 있었다. 본 연구에서 제시한 전문가 지식 활용 알고리즘은 향후 다른 의생물학 세부분야에서 정보추출 시스템을 개발하고자 할 때 참고사례로 활용될 수 있을 것이다.

more

초록/요약

After completion of human genome project in 2003, there have been numerous reports on cancer and related markers. This study was aimed to develop an algorithm and a system to extract automatically relational information between cancer and tumor markers from biomedical texts. Named entity of tumor markers was recognized by both a dictionary-based and the machine learning technology of support vector machine. Named entity of cancers was recognized by the MeSH dictionary. Relational and filtering keyword was selected after annotating 160 abstracts from PubMed. Relational information was extracted only when one of the relational keyword is in an appropriate position along the parse tree of a sentence with two entities. The performance of the system was evaluated with another set of 77 abstracts. With the relational and filtering keyword used in the system, the performance was 94.38% in precision and 66.14% in recall, while 49.16% in precision and 69.29% in recall without the expert knowledge. This system is considered to be of practical use in the research field concerned. The algorithm suggested in this study of applying expert knowledge to the system would be an reference when developing a textminig system in other biomedical research fields.

more