Search details

Text Visual Question Answering using Multimodal Deep Learning

딥러닝 기반의 시각 및 문자 이종정보 질의응답 시스템  

Abstract

Visual Question Answering (VQA) is a specialized area of artificial intelligence that intersects Computer Vision (CV) and Natural Language Processing (NLP). As such, VQA can be applied to answer questions about images that are presented in a natural language. While early VQA models show promising results in answering questions about images, their answers do not incorporate the information from texts in images. Without the information about texts, these earlier models can only provide answers to a limited number of questions because texts often convey crucial information. A new task was introduced to address this issue: VQA utilizing texts in images known as TextVQA or Scene Text VQA. The existing approaches for TextVQA include multimodal transformer architecture and multimodal fusion for images and text. The TextVQA models based on multimodal transformer show improved performance than that of the multimodal fusion approach; however, training the transformer models is computationally expensive. In this paper, we propose an efficient and innovative multimodal fusion of BERT-CNN for TextVQA using a classification approach. Our BERT-CNN model includes OCR correction and object detection using a 2-D Gaussian filter. The model achieves greater performance in two of the existing datasets, than that of the multimodal transformer models with fewer parameters.

more

Abstract

시각 질의응답 (VQA)은 컴퓨터 비전 (CV)과 자연어처리 (NLP)가 융합된 인공지능 분야이다. VQA는 텍스트로 질문이 주어졌을 때 이미지에서 답을 찾아 올바른 답변을 만들어내는 태스크이다. 초기 VQA 모델은 이미지에 대한 질의응답에서 우수한 성능을 보여주지만, 모델에서 만들어진 답변은 이미지 속에 있는 문자에 대한 정보를 활용하지 않는다. 이미지 속 텍스트는 이미지의 중요한 정보를 가지고 있기 때문에 이처럼 텍스트에 대한 정보를 활용하지 않으면 제한된 질의에 대한 답변만 제공할 수 있다. 이러한 문제점을 해결하기 위해 텍스트를 활용하는 TextVQA라는 새로운 분야가 제안되었다. TextVQA를 해결하는 기존 방식은 이미지와 텍스트를 조합하는 트랜스포머와 멀티모달 방법이 있다. 트랜스포머를 활용하는 방법은 멀티모달 방법보다 높은 성능을 보이지만 높은 연산량으로 학습이 느리다는 문제점이 있다. 본 논문에서는 효율적인 학습을 위해 BERT와 CNN을 결합한 분류접근법을 제안한다. 최종 모델은 OCR 텍스트 보정과 2-D 가우시안 필터를 활용한 객체 탐지를 포함한 BERT-CNN 모델 구조이다. 제안된 모델은 두 개의 데이터셋에서 트랜스포머 기반 모델보다 더 높은 성능을 달성하였다.

more