검색 상세

음성-텍스트 교차 모달 검색 증강 생성 시스템

Speech-to-Text Cross-Modal Retrieval-augmented Generation System

목차

1. 서론 1
1.1. LLM 모델의 정의 및 한계 1
1.2. RAG 시스템의 정의 및 필요성 2
1.3. LLM을 이용한 오디오 데이터 처리 방법과 한계 2
1.4. 요약 3
2. 관련 연구 4
2.1. 오디오 인코더 및 오디오 언어 모델 4
2.2. 문맥 학습(In-context learning) 4
2.3. 오디오 모델을 결합한 LLM 모델 5
3. 음성 텍스트의 교차 모달 검색 증강 생성(RAG) 방법 6
3.1. 텍스트 기반 RAG 시스템 구조 6
3.2. RAG 시스템 처리 단계 7
3.3. 음성-텍스트 교차 모달 RAG 시스템 8
4. 교차 모달리티 RAG 적용 시스템: 마비말장애 심각도 분석 12
4.1. 마비말장애 심각도 예측 12
4.2. 실험 설계 13
4.2.1. 데이터셋 13
4.2.2. DNN 기반 심각도 예측 모델 14
4.2.3. 음성인식 모델 14
4.2.4. 텍스트 임베딩 모델 15
4.2.5. 음성 특징 추출 15
4.2.6. 벡터 기반 검색기 17
4.2.7. 생성형 AI 기반 생성기 17
4.3. 실험 및 평가 22
4.3.1. 문단읽기 과제 22
4.3.2. DDK 과제 25
5. 교차 모달리티 RAG 적용 시스템: 폭력상황 분석 28
5.1. 폭력상황 분석 28
5.2. 실험 설계 29
5.2.1. 데이터셋 29
5.2.2. 실험 방법 30
5.3. 실험 및 평가 30
6. 고찰 34
7. 결론 36
참고 문헌 37

more