법률 도메인 특화 기계번역 모델 연구 : 중국 민법전을 실례로
- 주제어 (키워드) 도메인 특화 기계번역 , 법률 텍스트 , 법률번역 , 신경망 기계번역 , 번역 오류 분석 , 전이학습; 领域个性化机器翻译,法律文本,法律翻译,神经机器翻译,翻译错误分析,迁移学习
- 발행기관 서강대학교 일반대학원
- 지도교수 강병규
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 박사
- 학과 및 전공 일반대학원 중국문화학과
- 실제URI http://www.dcollection.net/handler/sogang/000000076807
- UCI I804:11029-000000076807
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
본 논문의 목적은 법률 도메인 특화 기계번역 모델(본 연구의 ‘민법 도메인 특화 모 델’)을 구축해 범용 기계번역과 번역 품질을 비교함으로써 법률 도메인 특화 기계번역 모델의 번역 품질 개선도와 도메인 특화의 효과를 밝히는 것이다. 이를 위해 다음과 같은 분석을 실시하였다. 첫째, 법률 도메인 특화 기계번역이 갖는 다양한 특성에 따라 법언어학, 번역학, 기 계번역의 다각적인 관점에서 본 연구를 위한 이론적 토대를 고찰하였다. 법언어학 관 점에서 법률 언어는 정확성, 모호성, 정밀성, 명료성 등의 언어 사용상의 원칙 및 특 징을 가지며 일상 언어와의 차이를 보인다. 번역학적 관점에서는 법률 텍스트의 텍스 트 유형은 정보적 텍스트에 속하며, 번역 시에 그에 부합하는 언어 사용역(register)을 고려해야 한다. 기계번역 관점에서 도메인 특화는 특정 도메인 지식을 전이학습 (transfer learning)함으로써 이루어진다. 본고는 중국 민법전의 중한 번역 쌍 데이터 의 미세조정(fine tuning)을 통해 전이학습을 실시하였다. 둘째, 중국 민법전을 중심으로 법률 텍스트가 가지는 언어적 특징을 분석하였다. 분 석 내용은 어휘 사용 빈도, 법률 전문용어 추출, 정형 표현, ‘的’구문이다. 먼저 민법전에서 최고빈도 어휘는 ‘的’(4,047회)였으며, 이 밖에도 ‘应当’(748회), ‘可 以’(478회), ‘不得’(195회) 등 양태동사(情态动词)와 ‘或者’(1,026회), ‘等’(252회), ‘其 他’(240회) 등 모호성을 나타내는 어휘의 사용 빈도가 높게 나타났다. 법률 전문용어 추출에서 관찰 코퍼스(민법전)와 참조 코퍼스(ToRCH 2019의 일반 텍스트)를 비교한 결과, 민법전에 사용된 명사의 52%(252개 어휘)가 일반 텍스트에서 한 번도 사용되지 않았다. 이를 통해 어휘가 특정 도메인의 특징을 가장 확실하게 드러내는 요소임을 확인하였고, 참조 코퍼스에서 출현 빈도가 낮은 어휘일수록 법률 전문용어로 사용될 가능성이 높았다. 민법전의 정형 표현은 N-gram을 통해 분석하였다. 정형 표현에서 2-gram은 ‘명사+ 명사’ 조합 형태의 자유 결합, 3-gram은 공기나 결합 관계에서 제약성이 강한 연어 (collocation), 4-gram은 덩어리(chunk) 형태의 표현 문형의 비중이 높게 나타났다. 5-gram, 6-gram은 자유 결합이 거의 나타나지 않고 표현 문형이 절대적으로 높은 비 중을 보였다. ‘的’구문은 중국어 법률 텍스트에서만 사용되는 독특한 요소로 민법전에 서 출현 빈도가 1,201회에 달했다. ‘的’구문을 지칭(자기지칭, 전환지칭) 또는 조건 관 계의 표지로 보는 여러 관점이 존재하는데, 자기지칭과 전환지칭(주어, 목적어)으로 사용된 ‘的’구문을 생략하거나 해당 문장성분으로 ‘환원’해도 가정의 의미가 유지되기 때문에 법률 텍스트에서 ‘的’구문을 모두 ‘조건’ 의미로 번역해도 무방함을 확인하였다. 넷째, ‘진단’의 측면에서 범용 기계번역(파파고)의 민법전 중한 번역에서 나타나는 오류 항목을 고찰하였다. 이를 위해 귀납적 분석 방식으로 중한 법률 도메인 특화 기 계번역의 구현 과정에서 ‘소거’해야 할 주요한 오류 항목과 그 문제점을 상세하게 기 술하였다. 세부 오류 항목의 분석 결과, 법률 어휘와 전문용어의 부정확한 사용이 가 장 시급하게 해결해야 할 오류로 나타났다. 다섯째, 전이학습(transfer learning)의 일환인 미세조정(fine tuning)을 통해 실제로 법률 도메인 특화를 실시하였다. 미세조정용 데이터는 제4장에서 파파고의 민법전 번 역 결과물에 대해 풀 포스트에디팅(F-MTPE)을 실시해 구축하였고, 해당 데이터 2,500개 문장으로 미세조정함으로써 ‘민법 도메인 특화 모델’을 구축하였다. ‘민법 도메 인 특화 모델’의 번역 품질 개선도를 검증하기 위해 테스트를 실시하고 정량분석 (BLEU Score)과 정성분석(수동 번역 품질 분석)을 진행하였다. BLEU Score 측정 결 과, ‘민법 도메인 특화 모델’은 71.67점으로 가장 높은 점수를 보였으며 이를 통해 도 메인 특화 모델의 번역 품질이 매우 우수하다는 사실을 확인했다. 수동 번역 품질 분 석 결과, ‘민법 도메인 특화 모델’은 도치, 정형 표현, ‘的’구문 항목에서 100% 개선되 는 결과를 보였다. 특히, 법률 텍스트의 ‘的’구문을 ‘조건’ 의미로 번역하기 위한 데이 터 가공의 의도가 고스란히 반영되어 ‘민법 도메인 특화 모델’에서 해당 오류 빈도가 0회로 나타나면서 도메인 특화의 효과, 중요성, 필요성을 보여주는 강력한 증거를 제 공하였다. 이상의 논의를 종합해 보면, 본 논문은 중국 민법전을 중심으로 한 법률 도메인의 언어적인 특징 분석, 기존에 발생했던 오류 분석, 미세조정용 DB 구축, 그리고 미세조 정에 이르는 일련의 과정을 통해 법률 도메인 특화 모델의 구현과 방법을 실제로 보 여주었다. 나아가 법률 도메인 특화를 언어학적 분석에 머무르지 않고 공학 전문가와 의 협업과 테스트를 통해 법률 도메인 특화 모델의 번역 품질 개선도를 보여주었다. 그 결과 본 논문의 목적인 법률 도메인 특화 기계번역 모델의 번역 품질 개선과 도메 인 특화의 효과를 명확하게 밝혔다.
more초록
本文建立法律领域自适应机器翻译(Domain Adaptation Machine Translation)模型(文本独自建立的“民法领域自适应模型”),就其与通用神经网络机器翻译的翻译质量进行比较,证明法律领域自适应机器翻译模型的优化程度和自适应的效果。为此,本文进行了以下分析。 第一,根据法律领域自适应机器翻译的各种特性,从法律语言学、翻译学、机器翻译的不同层面考察了本研究的理论基础。法律语言学方面,法律语言有别于日常语言,在语言使用上具有准确性、模糊性、精确性、简明性等原则及特点。翻译学方面,法律文本的文本类型属于信息型文本,做翻译时需要考虑与之相适应的语域(register)。机器翻译方面,领域自适应模型的建立是通过迁移学习(transfer learning),其中微调(fine tuning)方式来实现。 第二,以中华人民共和国《民法典》为中心,从词汇层面分析了高频词汇和法律专业术语候选词汇。《民法典》中使用频率最高的词汇是“的”(4047次),此外,“应当”(748次)、“可以”(478次)、“不得”(195次)等情态动词,以及“者”(1026次)、“等”(252次)、“其他”(240次)等表示模糊性的词汇的使用频率较高。在选出法律专业术语词汇中,就监控语料(民法典)和参考语料(TORCH2019的普通文本)进行比较的结果显示,《民法典》中出现的名词52%(252个词汇)从未在普通文本中使用过。由此可见,词汇是体现特定领域特征的代表性因素,在参考语料中出现频率越低,被用作专业术语的概率越高。 第三,从句法层面分析了《民法典》的公式化表达(N-gram)和“的字短语”。在公式化表达中,在2-gram中“名词+名词”组合形式的自由结合最多,在3-gram中共现关系和制约性较强的搭配(collocation)开始出现,在4-gram中块状(chunk)形式的公式化表达句型比重较高。在5-gram、6-gram中几乎没有出现自由结合,公式化表达句型占所占的比重最高。“的字短语”是只在中文法律文本中使用的独特因素,在《民法典》中出现频率高达1201次。“的字短语”有指称(自指,转指)用法或假设标记用法。即使省略自指和转指(主语、宾语)的“的字短语”或将其“还原”为相应的句子成分,也能保留假设意,因此在法律文本中不妨将“的字短语”全部视为成“假设”标记。 第四,从“诊断”的角度考察了通用机器翻译(Naver Papago)对《民法典》的翻译错误。为此,以归纳分析的方式,详细描述了实现法律自适应机器翻译的过程中需要“去除”的主要错误及其问题。分析结果显示,法律词汇和专业术语的不正确使用是亟待解决的错误。 第五,通过迁移学习(transfer learning)中的一个方案“微调(fine tuning)”,直接实施了法律领域自适应。微调数据是对Papago的《民法典》翻译进行了深度译后编辑(F-MTPE)来构建,利用其微调数据的2500个句子,构成了“民法领域自适应模型”。为了了解“民法领域自适应模型”在翻译质量上的优化程度而进行了测试,包括定量分析(BLEU Score)和定性分析(人工分析)。BLEU Score评估结果显示,“民法领域自适应模型”评分最高(71.67),由此证明了领域自适应模型的翻译质量尤为优秀。人工分析结果显示,“民法领域自适应模型”在语序倒装、公式化表达、“的字短语”项目上呈现出100%的优化。值得一提的是,构建微调数据时将“的字短语”都修改成“假设意”,“民法领域自适应模型”中的“的字短语”错误频率为零,这表明“民法领域自适应模型”完好地体现出对“的字短语”的微调意图,并且为领自适应的效果、重要性和必要性提供了强有力的支撑。 综合以上讨论,本文通过法律领域的语言特征分析、现有通用机器翻译的错误分析、微调数据库构建以及微调等一系列过程,直接展示了法律领域自适应模型的实现及其方法。并且,法律领域自适应不止于语言学分析上,而是通过与工程专家的合作和测试,优化了领域自适应模型的翻译质量。结果明确表明,法律领域自适应机器翻译的翻译质量比通用机器翻译在法律领域更高。
more목차
제1장 서론 1
1.1 연구 목적 및 필요성 1
1.2 선행연구 검토 8
1.2.1 법언어학에 관한 연구 8
1.2.2 법률번역에 관한 연구 14
1.2.3 법률 도메인 특화 기계번역에 관한 연구 17
1.3 연구대상 및 연구방법 23
1.4 논의의 구성 28
제2장 이론적 배경 고찰 30
2.1 법언어학 관점의 고찰 31
2.1.1 법언어학과 법률 언어 31
2.1.2 법률 언어의 사용 원칙 34
2.1.3 법률 언어의 특징 39
2.2 번역학적 관점의 고찰 43
2.2.1 등가 이론과 법률 텍스트 번역 43
2.2.2 텍스트 유형과 법률 텍스트 번역 48
2.3 기계번역 관점의 고찰 54
2.3.1 신경망 기계번역과 트랜스포머 모델 55
2.3.2 전이학습과 법률 도메인 특화 60
2.4 번역 품질 평가 관점의 고찰 63
2.4.1 번역 품질 평가와 법률 텍스트 번역 64
2.4.2 기계번역의 번역 품질 평가 68
제3장 법률 텍스트의 코퍼스 구축과 언어적 특징 분석 73
3.1 민법전 코퍼스 구축 74
3.1.1. 민법전 코퍼스 구축 절차 및 분석 도구 74
3.1.2 텍스트 수집과 전처리 75
3.1.3 1차, 2차 어휘 추출 76
3.2 민법전에 대한 기초 통계 77
3.2.1 조문별 통계 81
3.2.2 문장별 통계 81
3.3 민법전의 언어적 특징 분석 83
3.3.1 어휘 사용 빈도 83
3.3.2 법률 전문용어 추출 90
3.3.3 정형 표현 98
3.3.4 '的'구문 107
3.4 소결 116
제4장 법률 텍스트의 범용 기계번역 오류 분석과 포스트에디팅 118
4.1 범용 기계번역의 귀납적 오류 분석 119
4.1.1 귀납적 오류 분석의 필요성 119
4.1.2 오류 분석 절차 120
4.1.3 오류 유형의 귀납 기준 123
4.2 범용 기계번역의 민법전 중한 번역 오류 항목 분석 124
4.2.1 오류 항목 통계 124
4.2.2 오류 항목 상세 분석 126
4.3 포스트에디팅을 통한 미세조정용 데이터 구축 148
4.3.1 민법전 포스트에디팅 148
4.3.2 미세조정용 데이터 구축 152
4.4 소결 157
제5장 법률 도메인 특화 기계번역 모델 구축 및 품질 분석 159
5.1 '민법 도메인 특화 모델' 구축 160
5.2 '민법 도메인 특화 모델'의 번역 품질 분석 166
5.2.1 번역 품질 분석 과정 166
5.2.2 번역 품질 자동평가 결과 170
5.2.3 수동 품질 분석 결과 170
5.3 '민법 도메인 특화 모델'의 개선도 분석 182
5.3.1 어휘 층위의 정확성 개선도 183
5.3.2 통사 층위의 정확성 개선도 186
5.3.3 텍스트 층위의 정확성 개선도 192
5.4 소결 194
제6장 결론 196
[참고문헌] 201