검색 상세

Vision Transformer를 활용한 반려동물 안구질환 이미지 분류

Classification of Companion Animal Eye Disease Images Using Vision Transformer

초록 (요약문)

최근 반려동물의 건강관리와 관련된 비용이 급격히 증가하였으며 반려동물을 위한 원격 진료 및 상담 서비스에 대한 수요가 늘어나고 있다. 특히 반려동물의 안구질환은 피부질환이나 외과질환에 비해 육안으로 구분이 어려워 양육자의 불필요한 병원 내원을 유발하거나 방치하여 질환을 악화시킬 수 있어 질환의 예방, 조기 진단, 육안 판단을 보조할 수 있는 수단 연구의 필요성이 대두되고 있다. 본 연구는 반려동물의 건강관리 방안 모색의 일환으로, 대표적인 반려동물인 반려묘와 반려견의 안구질환 이미지를 Attention Mechanism 기반의 Vision Transformer(ViT) 모델로 분류하였다. 사전 학습된 ViT 모델을 로드하여 전이학습을 통해 반려묘의 안검염과 결막염, 반려견의 궤양성 각막질환과 백내장의 각각 4개 질환에 대한 분류 모델을 학습, 검증하였다. 각 모델 실험의 성능 평가 결과, 평균 91.35%의 테스트 정확도를 도출하였다. 또한 합성곱 신경망 계열 모델과의 비교 분석을 통해, ViT-Base 모델이 반려동물의 안구질환 이미지를 분류하는 데 빠르고 안정적으로 학습을 진행할 수 있으며, 정확도 면에서 효율적이라는 결과를 얻어 본 연구의 타당성을 입증하였다.

more

초록 (요약문)

In recent years, the costs associated with pet healthcare have increased dramatically, and the demand for telemedicine and consultation services for pets is growing. In particular, eye diseases in pets are more difficult to distinguish with the naked eye than skin diseases or surgical diseases, which can cause unnecessary hospital visits by pet owners or worsen the disease due to neglect, so there is a need for research on means to prevent, early diagnose, and assist visual judgment. As part of this study, we classified images of eye diseases in cats and dogs, representative pets, using an attention mechanism-based Vision Transformer (ViT) model. By loading the pre-trained ViT model, we learned and validated classification models for four diseases: blepharitis and conjunctivitis in cats, ulcerative cornea disease and cataract in dogs through transfer learning. The performance evaluation of each model experiment resulted in an average test accuracy of 91.35%. In addition, through a comparative analysis with a convolutional neural network-based model, we found that the ViT-Base model can be trained quickly and reliably to classify images of pet eye diseases and is efficient in terms of accuracy, proving the validity of this study.

more

목차

제 1 장 서론 1
제 1 절 연구의 배경 및 목적 1
제 2 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 연구 동향 4
제 2 절 합성곱 신경망 기반 이미지 분류 모델 5
(1) ResNet 6
(2) EfficientNet 7
제 3 장 제안 방법 9
제 1 절 Attention Mechanism 9
제 2 절 Transformer 11
(1) Multi Head Attention 12
(2) Positional Encoding 13
(3) Encoder-Decoder Architecture 14
제 3 절 Vision Transformer(ViT) 15
(1) Patch Embedding 16
(2) Encoder layer 17
제 4 장 연구 실험 및 결과 18
제 1 절 연구 방법 18
제 2 절 데이터 수집 및 전처리 18
(1) 데이터 수집 18
(2) 데이터 전처리 20
제 3 절 모델 설계 및 훈련 23
(1) Vision Transformer 전이학습 23
(2) Attention Map 25
제 4 절 성능 평가 27
(1) 평가 지표 27
(2) 평가 결과 30
제 5 절 성능 비교 33
(1) ViT 모델과 합성곱 신경망 기반 모델 간 비교 실험 33
(2) 비교 실험 결과 34
제 5 장 결론 및 향후 연구과제 36
참고문헌 37

more