디지털 유방 X-선 영상의 진단적 분류를 위한 AdaBoost 기반 및 상호 정보 기반 재귀 특징 제거 지지 벡터 기계
Diagnostic Classification of Digitized Mammograms by AdaBoost-based and Mutual Information-based Support Vector Machines with Recursive Feature Elimination
- 주제(키워드) 특징선택 , 지지벡터기계 , 의료영상처리
- 발행기관 서강대학교 일반대학원
- 지도교수 김세준
- 발행년도 2009
- 학위수여년월 2009. 2
- 학위명 석사
- 실제URI http://www.dcollection.net/handler/sogang/000000044797
- 본문언어 영어
초록/요약
유방암은 여성에게 있어서 가장 많이 진단되는 암이며 그에 의한 사망자 수 역시 두 번째로 많은 암이다. 그러나 환부를 정확히 조기발견하면 완치가 가능한 질병이기 때문에, 디지털 유방 x-선 영상에서 양성과 악성 유방 종양을 구분하는 문제를 해결하는데 있어서 컴퓨터 보조 진단(CADx) 시스템이 점차 각광을 받고 있다. 또한, 유방 x-선 영상에서 추출한 특징의 일부만을 사용하여 보다 분류 정확도를 높일 수 있다는 점이 연구결과 밝혀졌다. 이상을 바탕으로, 이 논문에서 우리는 유방 x-선 영상에 가장 효율적인 분류 방법 중 하나인 지지 벡터 기계 (SVM)를 위한 새로운 특징 선택 방법을 제시한다. 우리는 기본 알고리즘으로 SVM 재귀 특징 제거법 (SVM-RFE)을 선택하여 두 가지 서로 다른 특징 선택 방법을 이 연구에서 제안하고자 한다. 첫 번째 방법인 AdaBoost 기반 복합 SVM-RFE는 SVM-RFE의 확장인 복합 SVM-RFE (Multiple SVM-RFE)에 기반을 둔 알고리즘이다. 다른 한 방법인 상호정보(mutual information) 기반 SVM-RFE는 특징들간의 중복성을 최소화하고 클래스에의 연관성을 최대화하는 상호 정보에 기반을 둔 특징 선택 방법에서 영감을 얻은 것이다. 우리는 우리가 제안한 방법을 검증하기 위해 세계에서 가장 규모가 큰, 실제의 유방 x-선 영상을 담은 공개 데이터베이스에서 추출한 종괴(mass)와 석회(calcification) 환부들에 대하여 실험을 수행했다. 실험 결과는 우리의 방법들이 기존의 다른 방법들에 비해 우월하거나 아니면 최소한 경쟁력 있는 성능이 있음을 보여주었다. 또한, 결과들은 우리의 방법들의 이론적 기저에 대한 실험적 증거가 되었다. 결과적으로, 우리는 우리의 방법들이 유방 x-선 영상에 대한 SVM을 이용한 CADx 시스템을 위한 효과적인 특징 선택 방법이라고 결론내릴 수 있었다.
more초록/요약
Breast cancer is the second largest cause of cancer deaths and the most frequently diagnosed cancer in women. However, since it is a curable disease if abnormalities are found early, computer aided diagnosis (CADx) systems for digitized mammograms have become more and more popular in solving the problem of classification between benign and malignant tissues. Moreover, studies have shown that using only a subset of features generated from the mammograms can yield higher classification accuracy. To this end, we propose new feature selection methods for support vector machines (SVM), one of the most effective classification methods for mammograms, in this paper. We chose SVM-Recursive Feature Elimination (SVM-RFE) as the base algorithm and propose two feature selection schemes in this research. First one, namely AdaBoost-based Multiple SVM-RFE, is an algorithm based on Multiple SVM-RFE which is an enhanced version of SVM-RFE. The other scheme, Mutual Information-based SVM-RFE is inspired by a mutual information-based feature selection method which minimizes redundancy among features and maximizes relevance to classes. We have conducted experiments to test our schemes on the datasets of mass and calcification lesions extracted from the largest publicly available, real world mammogram database. The experimental results showed that our schemes outperform, or at least are competitive to other classification methods. Moreover, results also serve as empirical evidences for the theoretical base of our methods. In consequence, we conclude that our methods are effective feature selection schemes for SVM in mammogram CADx systems.
more목차
1 Introduction = 1
2 Feature Selection Methods for Support Vector Machine = 4
2.1 Support Vector Machine (SVM) = 4
2.2 Feature Selection Methods = 6
2.2.1 SVM with Recursive Feature Elimination (SVM-RFE) = 6
2.2.2 Multiple SVM-RFE (MSVM-RFE) = 7
2.2.3 Minimum Redundancy Maximum Relevance (mRMR) = 8
2.2.4 SVM-RFE with mRMR = 11
3 AdaBoost-Based Multiple SVM-RFE = 13
3.1 Motivation = 13
3.2 Algorithm = 14
3.3 Limitations = 16
4 Mutual Information-Based SVM-RFE = 17
4.1 Motivation = 17
4.2 Algorithm = 19
4.3 Complexity Analysis = 21
5 Experiments = 22
5.1 Experimental Setup = 22
5.1.1 Dataset = 22
5.1.2 Features = 23
5.1.3 Performance Evaluation = 27
5.2 Results = 28
6 Conclusions and Further Research = 35
Bibliography = 37
List of Tables
5.1 Dataset Information = 23
5.2 BI-RADS Mammographic Features = 26
5.3 Comparison of Kernels in Terms of Maximum Az Value = 28
5.4 Comparison of Feature Selection Methods by Maximum Az Value = 31
List of Figures
5.1 Example of benign mass lesion (Case 0250, right, CC) = 24
5.2 Example of malignant mass lesion (Case 3017, left, CC) = 24
5.3 Example of benign calcification lesion (Case 3094, left, MLO) = 25
5.4 Example of malignant calcification lesion (Case 3008, right, MLO) = 25
5.5 Example of digital mammogram (Case 1229, left, MLO) = 27
5.6 Az with different number of features for mass of MGH = 32
5.7 Az with different number of features for calcification of MGH = 32
5.8 Az with different number of features for mass of WU = 33
5.9 Az with different number of features for calcification of WU = 33
5.10 Az with different number of features for mass of WFUSM = 34
5.11 Az with different number of features for calcification of WFUSM = 34