Sentence BERT 기반 K-Means를 활용한 미확인 의도 탐지
Open Intent Detection Using K-Means Algorithm Based on Sentence BERT
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000069916
- UCI I804:11029-000000069916
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
기존의 목적지향 대화 시스템(Task-Oriented Dialogue System)에서의 사용자의 의도 분류는 레이블링 된 데이터를 지도학습(Supervised Learning) 기반의 분류기로 학습하는 방식으로 이뤄졌다. 하지만 실제로 시스템을 운영하는 환경에서는 학습데이터에는 존재하지 않았던 새로운 의도(Unknown Intent)가 알려진 의도(Known Intent)와 혼재되어 등장하게 된다. 이처럼 미확인 의도 탐지(Open Intent Detection)는 기존에 학습하지 못한 새로운 의도가 유입되었을 때 이를 알려진 의도와 분리하여 탐지하는 연구 분야이다. 본 논문에서는 Sentence BERT 기반 고객상담 시스템을 구축하고 이후 K-Means 클러스터링을 이용하여 미확인 의도를 탐지하는 방법을 제안한다. 먼저 알려진 의도 데이터에 대하여 Sentence BERT를 softmax 손실함수로 미세조정 하여 문장 임베딩을 추출하고 K-Means 알고리즘을 이용하여 클러스터링한다. 이후 미확인 의도에 해당하는 클러스터를 찾아내어 미확인 의도를 탐지한다. 이때 알려진 의도 개수 보다 큰 개수를 가지도록 클러스터링 학습하고, 각 클러스터의 크기와 클러스터 중심점과의 거리 평균을 평가하여 미확인 의도 클러스터를 탐지한다. AI-Hub에서 제공하는 고객상담 질의응답 데이터로 실험한 결과, 제안모델이 미확인 의도 탐지 전체 Macro-F1 65.83%의 성능을 보여 기존 비정상 데이터 탐지 모델인 softmax 예측 확률 모델 대비 높은 성능을 보였다.
more