검색 상세

카테고리 정보를 이용한 한국어 요약문 생성 모델에 관한 연구

A Study on the Korean Abstract Generation Model Using Category Information

초록/요약

대량의 텍스트가 생성되는 현대 사회에서 요약문은 원문을 이해하는 데 중요한 역할을 한다. 생성되는 대부분 텍스트는 원문만을 보유하지만, 일부는 카테고리 정보를 포함하기도 한다. 본 논문에서는 카테고리 정보와 본문을 이용하여 자연스러운 요약문 생성 모델을 제안한다. 실험 데이터는 기자가 작성한 정답 요약문이 존재하는 2016년 1월 ~ 2018년 5월 사이의 뉴스 1,039,828건을 수집 후 훈련 세트 882,154건, 검증 세트 155,674건, 평가 세트 2,000건으로 분류하였다. 실험 시 카테고리 정보를 본문과 결합한 형태로 사용하여, 특정 카테고리와 자주 등장한 단어가 학습 시 Context vector에 반영되어 디코더에서 집중할 수 있도록 하였다. 또한, 카테고리의 정보 삽입 위치에 따른 영향을 관찰하기 위해 원문에 앞, 뒤, 중간에 삽입하여 생성된 요약문의 ROUGE 수치를 비교하였다. 그 중 카테고리 정보를 본문의 앞에 넣어서 실험했을 때 개선된 성능을 보였다. 이는 카테고리 정보를 포함했을 때 카테고리와 자주 등장한 단어가 높은 가중치를 받음으로써 디코더에서 집중해야 할 대상에 포함된 것으로 보이고, 한국어의 특성상 문장의 앞에 중요한 문장들이 있기 때문에 나타난 결과로 보인다. 반면에 카테고리 정보 삽입 위치에 따라 카테고리가 정보가 노이즈가 되기도 하였는데, 카테고리 정보를 중간에 임의로 삽입했을 때 ROUGE 수치가 떨어지는 결과를 보였다. 카테고리 정보를 사용했을 때 특징은 카테고리와 유사한 단어들이 요약문 생성 시 포함되었는데, 이는 카테고리와 유사성을 보이고 자주 등장하는 단어들이 Context vector에 포함되어 요약문 생성 시 영향을 미치는 것으로 보인다. ROUGE 수치상 큰 개선은 보이지 않지만, 카테고리 정보를 통한 핵심 단어들이 요약문에 포함되어서 자연스러운 요약문이 생성되는 것을 보였다.

more