검색 상세

대화 시스템을 위한 CRF와 Active Learning 기반의 효율적 의미구조 분석 : Efficient Semantic Structure Analysis Based on Active Learning with CRF for a Dialogue System

  • 발행기관 서강대학교 대학원
  • 지도교수 서정연
  • 발행년도 2007
  • 학위수여년월 200702
  • 학위명 석사
  • 학과 및 전공 컴퓨터학
  • 식별자(기타) 000000103604
  • 본문언어 한국어

초록/요약

목적 지향성 대화에서 화자의 의도는 화행과 개념열 쌍으로 구성되는 의미구조로 분석될 수 있다. 그러므로 대화 속에 포함된 해당 발화의 정확한 의미구조를 파악해내는 일은 대화 처리에 있어서 매우 중요한 일이다. 본 논문에서는 CRFs(Conditional Random Fields)와 active learning방법을 이용하여 효율적인 의미구조 분석을 제안한다. 제안 시스템은 편향된 학습 오류를 감소시키기 위해 입력 자질을 형태소 분석 결과값만 이용한 어휘-품사와 품사 바이그램을 사용하고 카이 제곱 통계량을 이용하여 정보량이 낮은 자질을 제거한다. 추가적으로 화행과 개념열 정보가 부착된 학습 데이터를 수동으로 만드는 작업 시간을 줄이기 위해 제안 시스템은 화행 분석과 개념열 분석의 정확률을 빠른 시간에 동시에 높이는 active learning을 사용했다. 실험 결과, 일정 관리 영역의 도메인에서 학습 데이터를 1/4만 사용하지만 기존 MEM(Maximum Entropy Model) 연구와 비슷한 성능(화행 92.44%, 개념열 89.83%)을 보여주었다.

more

초록/요약

In a goal-oriented dialogue, speaker''s intention can be approximated by a semantic structure that consists of a pair of a speech act and a concept sequence. Therefore, it is very important to correctly identify the semantic structure of an utterance for implementing an intelligent dialogue system. In this thesis, we propose a method to efficiently analyze the semantic structure using CRFs (Conditional Random Fields) and an active learning method. To reduce biased learning errors, the proposed system uses low-level linguistic features such as lexical-POS (Part-Of-Speech) pairs and POS bi-grams as input features, and filters out uninformative input features using statistic. In addition, to reduce the time-consuming jobs to manually construct large training data annotated with speech acts and concept sequences, the proposed system adopts an active learning method to rapidly increase the precisions of speech act analysis and concept sequence analysis at the same time. In the experiments on speech act analysis and concept sequence analysis in a schedule arrangement domain, the proposed system showed similar performances (92.44% and 89.83% respectively) with the representative previous work, MEM (Maximum Entropy Model), although it uses a quarter of training data.

more