음성-텍스트 교차 모달 검색 증강 생성 시스템
Speech-to-Text Cross-Modal Retrieval-augmented Generation System
- 주제어 (키워드) Speech-to-Text , Cross-Modal Prompt , Retrieval-Augmented Generation , Large Language Model
- 발행기관 서강대학교 일반대학원
- 지도교수 구명완
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과
- 실제 URI http://www.dcollection.net/handler/sogang/000000079113
- UCI I804:11029-000000079113
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
목차
1. 서론 1
1.1. LLM 모델의 정의 및 한계 1
1.2. RAG 시스템의 정의 및 필요성 2
1.3. LLM을 이용한 오디오 데이터 처리 방법과 한계 2
1.4. 요약 3
2. 관련 연구 4
2.1. 오디오 인코더 및 오디오 언어 모델 4
2.2. 문맥 학습(In-context learning) 4
2.3. 오디오 모델을 결합한 LLM 모델 5
3. 음성 텍스트의 교차 모달 검색 증강 생성(RAG) 방법 6
3.1. 텍스트 기반 RAG 시스템 구조 6
3.2. RAG 시스템 처리 단계 7
3.3. 음성-텍스트 교차 모달 RAG 시스템 8
4. 교차 모달리티 RAG 적용 시스템: 마비말장애 심각도 분석 12
4.1. 마비말장애 심각도 예측 12
4.2. 실험 설계 13
4.2.1. 데이터셋 13
4.2.2. DNN 기반 심각도 예측 모델 14
4.2.3. 음성인식 모델 14
4.2.4. 텍스트 임베딩 모델 15
4.2.5. 음성 특징 추출 15
4.2.6. 벡터 기반 검색기 17
4.2.7. 생성형 AI 기반 생성기 17
4.3. 실험 및 평가 22
4.3.1. 문단읽기 과제 22
4.3.2. DDK 과제 25
5. 교차 모달리티 RAG 적용 시스템: 폭력상황 분석 28
5.1. 폭력상황 분석 28
5.2. 실험 설계 29
5.2.1. 데이터셋 29
5.2.2. 실험 방법 30
5.3. 실험 및 평가 30
6. 고찰 34
7. 결론 36
참고 문헌 37