논문·특허·임상시험 기반 다중 특징을 활용한 신약 상업성 예측 기법
New Drug Sales Prediction Based on Multi-Source Features: Integrating Publications, Patents, and Clinical Trial Data
- 주제어 (키워드) 데이터 사이언스 , 신약 개발 , 상업성 예측
- 발행기관 서강대학교 AI.SW대학원
- 지도교수 김영재
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 AI.SW대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000082139
- UCI I804:11029-000000082139
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
신약의 상업적 성공 가능성을 사전에 예측하는 것은 제약 산업에서 연구개발 전략 수립과 투자 의사결정에 있어 중요한 과제이다. 본 연구는 신약이 시장에 출시되기 전 발표된 과학적 정보, 즉 논문 수(PubMed), 특허 출원 수(USPTO), 임상시험 등록 수(ClinicalTrials.gov) 등의 지표가 해당 의약품의 상업적 성과(연도별 매출)에 미치는 영향을 분석하고자 하였다. 2000년 이후 FDA(U.S. Food and Drug Administration)에서 승인 받은 의약품 중 매출 정보가 있는 252개 의약품을 대상으로, 1990~2024년 범위의 데이터를 구성하였고, 연도별 논문 수, 특허 수, 임상 수에서 특징 값을 추출하여 독립 변수로 사용하였고, 연도별 매출의 로그 변환값의 평균을 종속 변수로 설정하였다. 로지스틱 회귀, 랜덤 포레스트 회귀, XGBOOST 세 가지 모델을 적용하였고, XGBOOST 모델은 SHAPR 기반 특징 중요도 분석과 하이퍼 파라미터 튜닝을 통한 최적화 전후 결과의 예측 성능을 비교하였다. 그 결과, 모든 결과에서 AUC 0.70~0.73 수준의 예측 성능을 보였으며, XGBOOST (최적화)는 실패 예측 성능과 전체 정확도 측면에서 가장 우수한 성능을 나타냈다. 랜덤 포레스트는 성공 예측의 재현율 측면에서 가장 우수한 성능을 나타냈다. 로지스틱 회귀는 실패를 잘 포착하면서도 성공을 보수적으로 예측하는 특성을 보였지만, XGBOOST(최적화) 대비 낮은 성능을 나타냈다. XGBOOST는 정밀도와 재현율 간 균형 잡힌 결과를 보여 일반화된 예측 모델로서의 가능성을 확인하였지만 모든 지표에서 XGBOOST(최적화) 대비 낮은 성능을 보였다. 본 연구는 공개 가능한 과학기술 기반 지표만을 활용하여 신약의 상업적 성공 가능성을 조기에 예측할 수 있는 가능성을 실증적으로 제시하였으며, 향후 보다 정교한 변수 확장 및 실무적 의사결정 도구로의 응용 가능성을 제시한다.
more초록 (요약문)
Predicting the commercial success of new drugs prior to market launch is a critical task in pharmaceutical R&D strategy and investment decision-making. This study aims to analyze the impact of pre-approval scientific indicators—specifically, the number of publications (PubMed), patent filings (USPTO), and clinical trial registrations (ClinicalTrials.gov)—on the commercial performance of approved drugs, measured by annual revenue. A dataset was constructed comprising 252 FDA-approved drugs with available sales data since 2000, covering the period from 1990 to 2024. Features were extracted from yearly counts of publications, patents, and clinical trials as independent variables, while the average log-transformed annual sales served as the dependent variable. The study applied three models—logistic regression, random forest regression, and XGBoost—and compared the predictive performance of the XGBoost model before and after optimization using SHAP-based feature importance analysis and hyperparameter tuning. The results showed that all four models achieved an AUC between 0.70 and 0.73. Among them, the optimized XGBoost model demonstrated the best performance in terms of failure prediction and overall accuracy. The random forest model yielded the highest recall for successful cases. Logistic regression showed strength in identifying failures but tended to be conservative in predicting success, and overall underperformed compared to the optimized XGBoost. The standard XGBoost model showed balanced precision and recall, indicating its potential as a generalized predictive model, though it was outperformed by the optimized version in all metrics. This study empirically demonstrates the feasibility of early prediction of a drug’s commercial success using only publicly available scientific and technical indicators and suggests the potential for future enhancement through expanded variables and practical decision-support applications.
more목차
제 1 장 서론 1
1.1 연구 배경 1
1.2 연구 목표 및 방법 3
1.3 논문 구성 4
제 2 장 선행연구 고찰 5
2.1 신약 개발 성공 예측에 대한 기존 접근 5
2.2 논문 수와 임상 성공률의 관계 6
2.3 유전적 타당성과 임상 성공률의 관계 6
2.4 임상시험 데이터 기반 예측 모델 7
2.5 AI 기반 성공 예측의 가능성과 한계 7
제 3 장 연구방법론 9
3.1 데이터 수집 및 전처리 9
3.2 로지스틱 회귀 분석 15
3.3 랜덤 포레스트 분류기 15
3.4 XGBOOST 17
3.5 SHAP 기반 특징 중요도 분석 및 재선택 18
제 4 장 연구 결과 20
4.1 로지스틱 회귀 분석 결과 20
4.2 랜덤 포레스트 분류기 결과 21
4.3 XGBOOST 분석 결과 22
4.4 XGBOOST(최적화) 분석 결과 23
4.5 모델 간 결과 비교 및 해석 24
제 5 장 결론 및 향후 과제 27
5.1 연구 요약 27
5.2 연구의 시사점 28
5.3 연구의 한계 28
5.4 결론 29
제 6 장 참고문헌 31

