국지적 메모리 메커니즘을 이용한 Neural Turing Machine 기반의 언어모델
Language Model Using Neural Turing Machine Based on Localized Memory Mechanism
- 주제(키워드) language model , neural Turing machine , localized memory mechanism , localized content-based addressing , forget gate-based memory de-allocation method , 언어모델 , 뉴럴 튜링 머신 , 국지적 메모리 메커니즘 , 국지적 컨텐츠 기반 주소지정 , 상실 게이트 기반 메모리 재할당 기법
- 발행기관 서강대학교 일반대학원
- 지도교수 김지환
- 발행년도 2021
- 학위수여년월 2021. 2
- 학위명 박사
- 학과 및 전공 일반대학원 컴퓨터공학과
- UCI I804:11029-000000065631
- 본문언어 영어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
기존 딥러닝 모델은 task-specific한 문제 해결에 적합하였다. 따라서 기존 딥러닝 모델은 general-purpose 문제를 해결하기 위해 적용될 때 성능이 저하된다는 문제점이 발생한다. 이와 같은 문제점을 해결하기 위해서는, 새로운 태스크에 적합한 hyper-parameter를 찾아야 하고, 새로운 hyper-parameter로 딥러닝 모델을 재학습 해야 한다. 기존 딥러닝 모델이 general-purpose의 역할을 수행하기 위하여, 폰 노이만 아키텍처를 딥러닝 모델에 적용한 neural Turing machine (NTM)이 제안되었다. NTM은 기존 딥러닝 모델을 제어기로 사용하고, 외부 메모리에 읽기 및 쓰기 연산을 attention 매커니즘으로 수행한다. 하지만 NTM은 attention 벡터를 생성할 때, 모든 외부메모리 주소값에 접근해서 코사인 유사도를 계산하기 때문에, 불필요한 메모리 정보가 지속적으로 반영된다는 문제점이 있다. 또한, 메모리 재할당을 수행할 때, 현재 접근한 메모리 주소에 저장된 정보가 일부만 삭제되고 재할당된다는 문제가 있다. 본 연구에서는 기존 NTM 아키텍처의 2가지 문제점을 해결하고 성능을 향상시키기 위해, 국지적 메모리 메커니즘 기법을 이용한 NTM 아키텍처 기반 언어모델을 제안한다. 제안하는 NTM 아키텍처는 task-specific 도메인으로 언어모델 태스크, general-purpose 도메인으로 음성인식의 rescoring에 적용하였다.
more초록/요약
Previous deep learning models are suitable for solving task-specific problems. Therefore, when the existing deep learning model is applied to solve the general-purpose problem, there is a problem that performance is degraded. To solve such a problem, it is necessary to find a hyper-parameter suitable for a new task, and retrain a deep learning model with a new hyper-parameter. For the existing deep learning model to play a general-purpose role, a neural Turing machine (NTM) that applied the von Neumann architecture to the deep learning model was proposed. NTM uses the existing deep learning model as a controller, and performs read and write operations to external memory as an attention mechanism. However, when generating an attention vector, the NTM accesses all external memory address values and calculates the cosine similarity, so there is a problem that unnecessary memory information is continuously reflected. Also, when performing memory reallocation, there is a problem that only part of the information stored in the currently accessed memory address is deleted and reallocated. In this study, to solve the two problems of the existing NTM architecture and improve the performance, we propose a language model based on the NTM architecture using a local memory mechanism technique. The proposed NTM architecture is applied to the language model and rescoring task of speech recognition as a task-specific and general-purpose domain.
more

