Enhancing Dermatological Diagnostics by Explainable AI and Vision Language Model
- 주제어 (키워드) Explainable AI , Vision Language Models , Semantic Segmentation , Dermatological Diagnostics , Coordinate Analysis , 설명 가능한 AI , 시각 언어 모델 , 의미 분할 , 피부 질환 진단 , 좌표 분석
- 발행기관 서강대학교 정보통신대학원
- 지도교수 최준석
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000078907
- UCI I804:11029-000000078907
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Collecting medical data is costly and fraught with challenges, requiring substantial expertise, time, and financial resources, particularly for object labeling and semantic segmentation. These challenges complicate the development of semantic segmentation models. This study addresses these challenges by employing label-only training to harness semantic information, which is then applied to enhance the performance and interpretability of vision language models (VLMs). Models are trained on datasets containing only label information and are further analyzed using Class Activation Mapping (CAM) techniques to extract saliency maps and identify areas that models deem significant. Despite the application of advanced CAM techniques such as Grad-CAM, Grad-CAM++, Layer-CAM, and Eigen-CAM, the improvement in semantic segmentation performance was not substantial. Nevertheless, this study demonstrates that even imprecise semantic information can enhance model performance compared with using no information. In addition, the introduction of progressively more accurate information significantly improves the accuracy and quality of VLM, Honeybee outcomes. Honeybee outcome performance was evaluated using G-EVAL with the GPT-4 Turbo for testing. The evaluation confirmed that this approach can provide effective performance enhancements in critical areas, based on the refined capabilities of explainable AI in diagnostic settings.
more초록 (요약문)
의료 데이터 수집은 본질적으로 비용이 많이 들고 도전적이며, 특히 객체 라벨링과 의미 분할 (Semantic segmentation)에 상당한 전문 지식, 시간 및 재정적 자원이 필요합니다. 이러한 어려움은 의미 분할 모델 (Semantic segmentation model)의 개발을 복잡하게 만듭니다. 위 연구는 이미지 라벨 정보만을 활용한 훈련을 통해 의미론적 정보를 활용하고, 이를 통해 Vision Language Model (VLM)의 성능과 해석 가능성을 향상시키는 방식으로 문제를 해결합니다. 모델은 라벨 정보만 포함된 데이터셋에서 훈련되며, 더 나아가 Class Activation Mapping (CAM) 기술을 사용하여 중요한 영역을 식별하는 saliency map 을 추출하여 분석합니다. 다양한 CAM 기술들인 Grad-CAM, Grad-CAM++, Layer-CAM, 및 Eigen-CAM 을 적용했음에도 불구하고 의미 분할 성능은 크게 개선되지 않았습니다. 그럼에도 불구하고, 위 연구는 정확하지 않은 의미 정보라도 정보를 전혀 사용하지 않는 것보다 모델 성능을 향상시킬 수 있다는 것을 확인했습니다. 또한 점진적으로 더 정확한 정보를 도입함으로써 VLM (Honeybee) 결과의 정확도와 품질이 크게 향상된 것을 확인했습니다. Honeybee 결과 성능은 G-EVAL 을 사용하여 평가되었으며, 테스트에 GPT-4 Turbo 를 활용하였습니다. 위 접근 방식은 의료 애플리케이션에 필수적인 True Positive Rate(TPR)와 같은 핵심 영역에서 효과적인 성능 향상을 제공할 수 있음을 확인시켜 주었습니다.
more목차
Ⅰ. Introduction 1
Ⅱ. Related research 7
A. Image Classification 7
B. Semantic segmentation 10
(1) Semantic segmentation architecture 10
(2) Weakly supervised semantic segmentation 11
C. Explainable AI in image analysis 15
D. Vision language models (VLMs) 18
(1) Early foundations 18
(2) Evolution towards transformer models 18
(3) Advancements in multimodal models 19
Ⅲ. Training 21
A. Dataset (HAM10000) 21
B. Modeling 25
(1) Classification model 25
(2) CAM methods 27
(3) Vision language model (VLM) 28
C. Evaluation method 30
(1) Label classification 30
(2) Semantic segmentation 31
(3) LLM evaluation with image classification and CAM information 33
(a) Experimental setup 34
(b) Evaluation methodology 39
(c) Coordinate score approach 40
Ⅳ. Performance 42
A. Label classification 42
B. Semantic segmentation 45
C. VLM performance 51
(1) Structured answer prompts 53
(2) Focused answer prompts 55
(3) Coordinate score approach on focused answer prompts 57
(4) VLM performance conclusion 61
Ⅴ. Conclusion 63
References 65