dCollection 디지털 학술정보 유통시스템

오픈 도메인 대화를 위한 맥락 기반 임베딩을 통한 군집화 및 스키마 기반 LLM을 통한 군집 정교화

Clustering with Context Based Embeddings and Schema-Guided LLM Refinement for Open Domain Dialogue

원문보기

주제(키워드) 대화시스템 , 거대 언어 모델 , 군집화 , 의도 추출 , Dialogue System , Large Language Model , Clustering , Intent Discovery
발행기관 서강대학교 일반대학원
지도교수 구명완
발행년도 2026
학위수여년월 2026. 2
학위명 석사
학과 및 전공 일반대학원 인공지능학과협동과정
실제URI http://www.dcollection.net/handler/sogang/000000082272
UCI I804:11029-000000082272
본문언어 한국어
저작권 논문은 저작권에 의해 보호받습니다.

초록(요약문)

기존 작업 지향 대화(Task Oriented Dialogue) 연구에서의 의도 발견(intent discovery) 문제는 주로 단일 턴(single-turn) 의도 분류로 접근되어 왔다. 이 방식은 시스템에 사전에 정의되지 않은 사용자 의도를 처리하지 못한다는 한계를 가진다. 실제 산업 환경에서는 사용자 의도가 대화 흐름 속에서 서서히 드러난다는 점을 고려할 때, 이러한 접근은 현실과의 괴리가 있다. 이에 본 논문은 의도(theme) 발견을 멀티 턴(multi-turn) 기반 제로샷(zero-shot) 문제로 재정의하고, 이를 해결하기 위한 방법론을 제안한다. 이는 대화 문맥을 반영한 임베딩을 활용한 클러스터링, 각 클러스터에 대한 의도 라벨 생성, 대규모 언어 모델(LLM)을 이용한 클러스터 정교화, 그리고 사용자 선호 기반의 추가 정교화 단계로 구성된다. LLM 기반 정교화의 핵심은 클러스터의 의미를 잘 드러내는 의도 라벨을 얼마나 효과적으로 생성하느냐에 달려 있다. 본 연구는 이를 위해 동사 및 명사 형태의 슬롯-값을 스키마로 추출하는 LLM Agent 기반 Task Independent Slots(TIS) 방법을 제안한다. TIS는 대화의 주제를 간결하고 정확하게 요약하는 레이블을 생성하도록 설계되었다. 제안한 방법론은 Amazon AI가 주관한 DSTC12 Track 2 평가에서 1위를 달성했으며, 학습 절차 없이도 클러스터링 및 레이블링 성능을 유의미하게 향상시켰다. 나아가 실험을 통해, 대화 문맥 정보와 슬롯 기반 LLM 레이블링을 결합하면 도메인 변화에도 안정적으로 적용 가능한 클러스터를 형성할 수 있음을 확인하였다. 결과적으로 방법론은 실제 서비스 환경에서 새로운 사용자 의도를 지속적으로 포착해야 하는 대화 시스템에 대해, 확장 가능하고 별도의 학습이 필요 없는 실용적 솔루션을 제공한다. 또한, 본 논문에서는 특정 대화에 의도가 존재하는지 여부 자체를 판별하는 문제에 대한 추가 실험도 수행하여, 원시 대화 데이터에서 의도를 자동으로 생성해낼 수 있는 확장 가능성도 함께 검증하였다. 핵 심 낱 말 Theme Detection, Multi-Turn Dialogue, Zero-Shot, Kephrase driven Clustering, Large Language Model

차례 i
표 차례 ii
그림 차례 iii
초록 iv
1. 서론 1
1.1. 작업 지향 대화 시스템과 기존 의도 분류의 한계 1
1.2. 멀티 턴 대화와 도메인 외 상황에서의 의도 발견의 필요성 2
1.3. 요약 2
2. 관련 연구 4
2.1. 문장 임베딩 (Sentence Embedding) 4
2.2. 클러스터링 (Semantic Clustering) 4
2.3. 의도 발견(Intent Discovery) 4
3. 제안하는 방법론 6
3.1. 구조 6
3.2. 맥락 기반 임베딩을 통한 군집화 7
3.3. 스키마기반 LLM을 통한 군집 정교화 11
4. 실험 17
4.1. 데이터셋 17
4.2. 실험 설계 17
4.3. 평가 지표 17
4.4. 군집 품질 평가 18
4.5. 최종 군집 및 의도 라벨 품질 평가 21
4.6. DSTC12 Track2 공식 결과 32
5. 의도 유무 탐지 실험 34
5.1. 학습 세팅 비교 35
5.2. 추론 결과 분석 37
6. 결론 40
참고 문헌 42

반출 Meta View 목록

서강대학교

검색 상세

오픈 도메인 대화를 위한 맥락 기반 임베딩을 통한 군집화 및 스키마 기반 LLM을 통한 군집 정교화

초록(요약문)

목차