아파트 평면도 해석을 위한 Visual Question Answering 활용
Applying Visual Question Answering for Interpreting Apartment Complex Floor Plans
- 주제어 (키워드) VQA , LMM , LLaVA , gpt-4o , 건축 도면 , 평면도 , 아파트 , 공간 , VQA , LMM , LLaVA , gpt-4o , architectural blueprint , floor plan , apartment complex , space
- 발행기관 서강대학교 일반대학원
- 지도교수 박운상
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079466
- UCI I804:11029-000000079466
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
본 논문에서는 아파트 평면도 이미지 해석을 위한 시각적 질의응답(VQA: Visual Question Answering) 활용 가능성을 탐구한다. 본 연구에 VQA 적용을 추진하게된 주요 배경은 다음과 같다. 교육, 의료, 자율 주행 등의 분야에서 AI 활용이 활성화되어 있으며, 세부적으로도 VQA를 활용하여 시각적 정보를 언어적으로 해석하는 연구사례들을 쉽게 찾아볼 수 있다. 그러나, 건축분야는 타 산업 대비 AI 시장 규모가 작고, 도면 이미지 정보를 자연어로 해석하는 VQA 적용 사례가 부족하다. 이에 본 연구는 건축분야 특히 거주자가 가장 많은 주거 형태인 아파트의 평면도 이미지를 해석하는 데 VQA를 적용하는 방법론을 개발하고 그 유용성을 검증함으로써 동 분야의 발전에 기여하고자 한다. 아파트 건축 도면은 건설 현장 종사자는 물론이고 아파트 거주자나 입주 예정자 등 일반인에게도 유용한 정보를 제공한다. 그러나, 도면에 담긴 정보가 많기에 구체적인 내용을 정확히 파악하려면 세부적인 검토가 필요하다. 이에 도면 정보를 신속하고 효과적으로 파악하기 위한 수단으로 컴퓨터비전에 기반한 도면 연구가 이뤄지고 있다. 하지만 컴퓨터비전은 객체 검출과 분류에 초점을 맞추는 경향이 있기에, 도면의 정보를 자연어로 해석하고 사용자에게 설명하는데 한계가 있다. 따라서 본 연구에서는 건축 도면 이미지에서 필요한 정보를 쉽게 추출할 수 있는 도구로서 VQA를 적용하는 방안을 제시한다. 본 연구를 위해 건축 도면 데이터셋에서 아파트 평면도 이미지 1,000개를 가져왔고, 각 이미지마다 실내 공간에 관한 질의응답쌍 5가지를 적용하여 아파트 평면도 VQA 데이터셋을 구축하였다. 동 데이터셋을 활용해 공개형 LMM인 LLaVA 모델 5가지를 파인튜닝한 후, 성능 평가를 위한 실험을 진행하였다. 또한, 텍스트 설명만을 제공했을 때와 텍스트 설명과 해당 이미지를 함께 제공했을 때의 성능을 비교하였다. 실험 결과, 모델의 버전이 높고 파라미터 개수가 많을수록 성능이 향상되는 것을 확인하였다. 나아가, 평가 모델에 텍스트와 이미지가 함께 입력되었을 때가 텍스트만 입력했을 때에 비해서 성능이 더 우수한 것으로 나타났다. 결론적으로, 본 연구는 학습 데이터가 1천개로 제한적이며, 사용한 데이터 셋의 질문이 기본적이라서 다양한 질의 응답을 도출하는데 한계가 있고, 실험 환경의 제약으로 더욱 다양한 LMM모델을 실험하지 못하는 등의 한계점에도 불구하고, 아파트 평면도와 같은 전문적인 영역에도 VQA가 충분히 적용될 수 있다는 가능성을 확인하였다.
more초록 (요약문)
This paper explores the applicability of visual question answering (VQA) for images of apartment complexes. The primary motivation for applying VQA in this study is as follows: AI applications are widely utilized in fields such as education, healthcare, and autonomous driving, and there are numerous research cases where VQA is used to linguistically interpret visual information. However, compared to other industries, the AI market size in the architectural field is smaller, and there are few cases in which VQA has been applied to interpret blueprints into natural language. Therefore, this study aims to contribute to the development of the architectural field by developing and validating a VQA methodology for interpreting floor plan images of apartment complexes, which is the most common residential type. Not only do apartment floorplans provide useful information to construction workers, but also to apartment residents and perspective tenants. However, due to the large amount of information contained in floor plans, detailed examination is required to accurately understand the specific details. For this reason, studies based on computer vision have been conducted to quickly and effectively interpret blueprint information. However, computer vision tends to focus on object detection and classification, which limits its ability to interpret blueprint information into natural language and explain it to users. Therefore, this study proposes the application of VQA as a tool to easily extract necessary information from architectural blueprint images. For this study, to create an apartment complex floor plan VQA dataset, 1,000 apartment complex floor plan images were collected from an architectural blueprint image dataset, and five question-answer pairs related to indoor spaces were prepared for each image. This dataset was leveraged to finetune open-source LMMs, specifically LLaVA models, and experiments for performances evaluation were conducted. Additionally, the performance of models was compared when only text explanations were provided versus when both text explanations and corresponding images were provided. As a result of the experiments, the higher the version of the model was, and the greater the number of parameters was, the performance improved. Furthermore, the models demonstrated superior performance when both text and images were input to the evaluation model, compared to text-only inputs. In conclusion, despite limitations such as the relatively small training dataset of 1,000 images, basic-level questions in the dataset, and the inability to experiment with a broader range of LMM models due to experimental constraints, this study successfully demonstrated the potential applicability of VQA even in specialized domains such as apartment floor plans.
more목차
1장 서론 1
1.1 연구 배경 1
1.2 연구 목적 2
1.3 논문의 구성 3
2장 관련된 이론 4
2.1 도면 4
2.2 기존의 도면 이미지 관련 연구 사례 5
2.3 Visual Question Answering 6
2.3.1 VQA 개요 6
2.3.2 VQA 연구 적용 분야 6
2.3.3 건축 분야에 대한 VQA 적용의 필요성 7
2.4 Large Multimodal Model 8
2.4.1 시각 언어 모델의 발전 과정 8
2.4.2 CLIP 8
2.4.3 LLaVA 9
3장 제안하는 방법 11
3.1 사용하는 데이터셋 11
3.1.1 원천 데이터셋 설명 11
3.1.2 공간 중심 아파트 평면도 VQA 데이터셋 14
3.1.2.1 학습 데이터셋 19
3.1.2.2 검증 데이터셋 19
3.1.2.3 평가 데이터셋 21
3.2 사용하는 모델 26
3.2.1 LLaVA-v1.5 27
3.2.2 LLaVA-v1.6 28
3.2.3 GPT-4o 30
3.3 하이퍼파라미터 설정 32
4장 실험 및 결과 34
4.1 실험 환경 34
4.2 평가 방식 및 지표 34
4.2.1 LLM 기반 평가 방식의 필요성 35
4.2.2 텍스트 설명 37
4.2.3 레퍼런스 38
4.2.4 평가 지표 39
4.2.5 평가 과정 41
4.3 실험 결과 42
4.3.1 텍스트 설명만 입력했을 때의 성능 변화 43
4.3.2 텍스트 설명과 이미지를 입력했을 때의 성능 변화 44
4.4 추론 결과 및 논의 45
5장 결론 51
5.1 한계점 52
5.2 앞으로의 연구 52
6장 참고 문헌 55