검색 상세

다중언어 환경에서 언어 정보 기반 인식 학습 및 성능 개선 연구

Language Information Based Recognizer Training and Performance Enhancement in Multilingual Environments

초록(요약문)

본 연구는 다중언어 장면 문자 인식(STR) 성능 향상을 위해 언어 정보를 인식 모델에 내재화하는 멀티태스크 학습(Multi-Task Learning) 파이프라인을 제안한다. 다중언어 환경은 언어 간 시각적 유사성과 데이터 불균형으로 인해 인식 오류가 빈번하며 이를 해결하기 위해서는 언어 정보의 결합이 필수적이다. 본 연구에서는 인식 모델이 문자 특징과 언어 맥락을 효과적으로 공유 학습할 수 있도록 세 가지 학습 전략을 구성하여 최종 품질을 비교 평가하였다. 별도의 언어 정보 없이 문자 인식만을 수행하는 경우 인식 모델에 언어 분류 보조 헤드를 결합하고 정답 레이블을 직접 주입하는 지도 기반 멀티태스크 학습, 그리고 본 연구에서 제안하는 방식으로 교사 모델로부터 추출된 확률 분포 정보를 활용하여 언어 간 암묵적 관계를 전이하는 로짓(Logit) 증류 기반 멀티태스크 학습 방식이다. 파이프라인의 성능 분석을 위해 문자 오류율(CER)과 모델의 예측 확신도를 평가하는 위험-커버리지 지표를 활용하였다. 가장 최적의 파이프라인은 언어 분류 로짓을 보조 가이드로 삼은 멀티태스크 학습 모델인 것으로 나타났다. 특히 언어 정보의 결합이 항상 성능 향상을 보장하지 않으며, 정답 레이블을 과도하게 반영할 경우 두 태스크 간의 특징 경합으로 인해 오히려 인식 정확도가 저하될 수 있음을 확인하였다. 반면, 로짓 기반의 지식 증류는 부드러운 정규화 효과를 제공하여 경량 모델의 구조적 한계를 보완하고 실무 환경에서 요구되는 신뢰도 교정 성능을 입증하였다.

more

목차

제 1 장 서론 1
제 1 절 연구 배경 1
제 2 절 연구 목적 3
제 3 절 논문 구성 4
제 2 장 관련 연구 6
제 1 절 장면 문자 인식 6
(1) CTC 기반 6
(2) Attention 기반 7
(3) Transformer 기반 8
제 2 절 언어 분류 9
(1) 단계적 구조 9
(2) 통합 모델 구조 10
제 3 절 지식 증류 12
(1) 기본 개념 및 암묵적 지식 12
(2) 온도 스케일링 12
(3) 손실 함수 13
제 4 절 선행 연구 요약 14
제 3 장 제안 방법 16
제 1 절 개요 16
제 2 절 외부 언어 분류기 17
(1) 기본 구조 17
(2) 입력 전처리 18
(3) 외부 언어 분류기 지식 증류 20
제 3 절 인식기 및 문자 분류 보조 헤드 21
(1) 기본 인식기 구조 21
(2) 언어 분류 보조 헤드 22
제 4 절 Multi-Task Learning 기반 결합 23
제 5 절 데이터 구축 및 전처리 25
제 6 절 평가 방법 27
제 4 장 실험 및 결과 28
제 1 절 실험 환경 및 데이터셋 28
(1) 실험 데이터셋 28
(2) 구현 환경 및 학습 설정 28
제 2 절 외부 언어 분류 정보 생성 30
(1) 실험 개요 30
(2) 경량화 모델별 분류 정보 및 지식 증류 효과 분석 31
제 3 절 언어 정보 내재화에 따른 인식 성능 및 신뢰도 분석 34
(1) 실험 개요 및 비교 모델 설정 34
(2) CER 기반 인식 성능 및 교사 모델 영향 분석 36
(3) 예측 신뢰도 평가 39
제 5 장 결론 42
참고 문헌 44

more