검색 상세

Streaming Conformer-based Audio-Visual Speech Recognition with Blockwise Synchronous Beam Search

초록 (요약문)

The thesis proposes a streaming audio-visual speech recognition (AVSR) model which is suitable for real-world inference scenarios. This research aims to construct AVSR system which shows robust recognition performance even in noisy situations and small degradation in performance under online setup compared to offline setup. Recently, studies on various audio-visual speech recognition (AVSR) system have gained a lot of attention because of its noise-robustness characteristics. Although a lot of research have been conducted on sentence-piece AVSR system, streaming AVSR system has gained little attention. Most of the systems are built based on the transformer seq2seq model, which cannot be further used for online inference situations. Due to its in-nature property, which requires full-sentence as an input for self-attention and encoder-decoder attention, transformer models cannot be directly used for streaming scenarios. To deal with this problem, Contextual block encoder and novel blockwise synchronous beam search algorithms are used to enable block-level processing. Moreover, the paper proposes an effective modality fusion method. Especially, the research focuses on effectively exploiting both modalities to make the model more noise-robust even if the model can only get access to restricted frame-level utterance. Experimental results on LRS3-TED dataset demonstrate that our model effectively uses both voice and face information to accomplish robustness in the streaming setup. The research achieved this success by using frame-wise modality attention method.

more

초록 (요약문)

해당 논문은 인식 모듈이 사용되는 실제 환경에 보다 적합하게 실시간 추론이 가능한 시청각 음성인식 모델을 제안한다. 해당 연구는 소음이 강한 상황에서 강건한 인식 성능을 보이며, 실시간이 아닌 상황에 비하여 실시간 추론 시에 보다 적은 성능 저하를 갖는 실시간 시청각 음성인식 모델을 구현하는 것을 목표로 하였다. 최근, 시청각 음성인식 모델은 소음 상황에서 뛰어난 인식 성능을 보인다는 점 때문에 연구자들로부터 많은 주목을 받았다. 비실시간 문장형 시청각 음성인식 모델에 대해서는 많은 연구가 이루어진 반면, 스트리밍 시청각 음성인식 시스템은 거의 주목받지 못했다. 대부분의 시스템은 transformer seq2seq 모델 구조를 기반으로 구축되었지만, 해당 구조는 실시간 추론 상황에 바로 적용될 수 없다. 해당 구조의 특성상, encoder의 self-attention과 encoder-decoder 사이의 attention 연산을 수행하기 위해서는 입력 문장 전체 정보가 필요하기 때문이다. 이러한 문제점을 해결하기 위하여, 해당 연구에서는 contextual block encoder와 block wise synchronous beam search 기법을 활용하여 block 단위의 추론을 가능하게 하였다. 게다가, 해당 연구는 더욱 효과적인 시각과 청각 정보의 결합 방법을 제안한다. 특히, 해당 연구는 frame 단위의 발화에만 접근할 수 있는 상황에서도 시각과 청각 정보를 효율적으로 결합하여 모델의 소음 강건성을 높일 수 있게 하였다. LRS3-TED 데이터 세트에 대한 실험 결과는 우리 모델이 스트리밍 설정에서 견고성을 달성하기 위해 음성 및 얼굴 정보를 모두 효과적으로 사용함을 보여준다. 결합 방법으로는 frame-wise modality attention method를 활용하여 이를 달성할 수 있었다.

more