자연어 중심의 멀티모달 학습을 이용한 시청각 영상 기반 대화 시스템
Audio-visual Scene-aware Dialog System with Natural Language-driven Multimodal Representation Learning
- 주제어 (키워드) Audio-Visual Scene-aware Dialog System , Natural-language driven multimodal integration , Response-driven Temporal Moment Localization , Scene Graph Reasoning , Multimodal , 시청각 장면 기반 대화 시스템 , 자연어 중심 멀티모달 통합 , 응답 기반 시각적 탐지 알고리즘 , 장면 그래프 추론 , 멀티모달
- 발행기관 서강대학교 일반대학원
- 지도교수 서정연
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000076530
- UCI I804:11029-000000076530
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
Recently, the demand for artificial intelligence technology that can communicate with humans in various ways is increasing in the rapidly increasing multimedia environment. This requires convergence technology between complex intelligence such as natural language, vision, and hearing, which is still a very challenging task. Therefore, this thesis encompasses multi-modality from vision and language to vision, audio, and language. Recent approaches have mainly focused on a method of leveraging transformer-based language models to integrate individual information obtained from modality-specific feature extractors. Despite the substantial progress on multimodal fusion between language and visual modalities, there still have two caveats: ineffective use of auditory information and lack of interpretability of the system's response reasoning. To address these issues, this thesis focuses on a natural language-driven multimodal representation and investigates it from the vision and language task to audio-visual scene-aware dialog task. For vision and language understanding, this work adopts scene graphs that represent a structured knowledge of the static scene in the form of natural language. I introduce a scene-graph reasoning algorithm by leveraging a multi-modal transformer to better understand the static image in a more semantic way. This work proposes a novel multi-modal integration method by utilizing a set of explicit information from each modality as a form of natural language, which can be fused into a language model in a natural way. To the best of my knowledge, this approach has not been explored yet. But it can address the existing limitations in a robust way. This work also proposes a response-driven temporal moment localization method to increase the interpretability of the system response generation process. The system itself provides the user with the evidence referred to in the system response process as a form of the timestamp of the scene. The performance has shown state-of-the-art performance on the task.
more초록 (요약문)
최근 급격히 증가하는 멀티미디어 환경에서 인간과 다양한 방식으로 소통할 수 있는 인공지능 기술에 대한 수요가 증가하고 있다. 이를 위해서는 자연어, 시각, 청각 등 복합 지능 간의 융합 기술이 필요하며 이는 여전히 매우 어려운 과제입니다. 따라서 본 논문은 시각과 언어에서 시각, 청각, 언어에 이르기까지의 멀티모달 문제를 포괄합니다. 최근의 접근 방식은 주로 트랜스포머 기반 언어 모델을 활용하여 각 모달리티에 특화된 인코더에서 얻은 개별 정보를 통합하는 방법에 중점을 두었습니다. 언어와 시각 정보 간의 융합 기술의 상당한 진전에도 불구하고 여전히 복합 지능을 다루는 것은 두 가지 한계점이 있습니다. 청각 정보의 비효율적인 사용과 시스템의 반응 추론의 해석 가능성 부족입니다. 이러한 문제를 해결하기 위해 본 논문은 자연어 기반 멀티모달 통합 알고리즘에 초점을 두고 시각 및 언어 융합부터 시각, 청각, 언어 지능을 모두 요구하는 시청각 장면 인식 대화 탐구합니다. 시각과 언어 이해를 위해 이 작업은 한 장면에 대한 구조화된 지식을 자연어 형태로 표현하는 장면 그래프를 이용합니다. 보다 의미론적인 방식으로 정적 이미지를 더 잘 이해하기 위해 본 연구는 트랜스포머를 활용한 장면 그래프 추론 알고리즘을 소개합니다. 이 연구 결과를 토대로 본 논문은 청각 정보를 동반하는 시청각 영상 기반 대화시스템에 대한 연구로 확장됩니다. 이 연구는 이 논문의 가장 핵심인 각 모달리티의 특징 정보를 자연어의 형태로 표현하고 이를 언어 모델을 통해 멀티모달 통합을 하는 새로운 멀티모달 통합 알고리즘을 제안합니다. 그러나 이는 기존의 한계점을 충분히 다룰 수 있는 새로운 접근 방식으로 실험 결과를 통해 입증해 보이고 있습니다. 또한 본 연구에서는 시스템 응답 생성 프로세스의 해석성을 높이기 위해 응답 중심의 시간적 탐지 방법을 제안한다. 시스템 자체는 장면의 타임스탬프 형식으로 시스템 응답 프로세스에서 참조되는 증거를 사용자에게 제공합니다. 이것은 블랙박스로 여겨지는 시스템의 응답 생성 과정을 인간이 해석할 수 있게 하는 한가지 방법으로서, 본 연구는 해당 태스크에서 현재 가장 높은 성능을 기록하고 있습니다.
more