동적 사전 적응 방식의 디지털 TV용 폐쇄자막 다국어 자동번역 시스템 : Multilingual Machine Translation of Closed Captions for Digital Television with Dynamic Dictionary Adaptation
- 발행기관 서강대학교 대학원
- 지도교수 서정연
- 발행년도 2006
- 학위수여년월 200608
- 학위명 박사
- 학과 및 전공 컴퓨터학
- 식별자(기타) 000000103212
- 본문언어 영어
초록/요약
본 논문에서는 동적 사전 적응 방식을 이용하여 디지털 텔레비전 (Digital Television; DTV)에서의 한국어 폐쇄 자막 (Closed Caption)을 영어와 일본어 그리고 중국어로 자동번역(machine Translation)하는 다국어 번역 시스템을 제안한다. 폐쇄자막에서 매우 빈번히 출현하는 고유명사 표현인 개체명 (Named Entity; NE)은 인명, 지명, 조직명 등의 고유명사들로, 이들은 뉴스와 드라마와 같은 폐쇄자막에서 매우 중요한 정보를 가진다. 따라서, 외국인이 번역된 자막을 통해 TV 프로그램을 정확하게 이해하기 위해서는 개체명에 대한 정확한 번역이 필수적이다. 개체명 처리에 대한 고려가 없는 기본 번역시스템을 통한 초기 실험에서는 번역 결과가 만족스럽지 않음을 알 수 있었다. 본 논문에서는 개체명에 대한 정확한 번역 결과를 얻기 위해 다국어 신문 기사를 제공하는 웹 사이트로부터 다국어 개체명을 자동 인식하고, 이들의 대역 표현(Translingual Equivalence)을 자동 정렬하여 다국어 개체명 대역 사전을 자동으로 구축 하는 방법을 제시한다. 실시간으로 축적되는 개체명 대역 사전은 실시간 업데이트 서버(Live Update Server)를 통해 한⇒중, 한⇒일, 한⇒영 다국어 번역 서버에 제공되어 폐쇄자막 번역시 이용된다. 다국어 개체명 정렬 이외에도, 동적인 전문분야 자동인식(Dynamic Domain Identification)에 의한 전문용어 사전의 자동 Stacking, 그리고TV프로그램 정보인 EPG (Electronic Program Guide)를 통해 현재 수신중인 TV 프로그램 정보를 인식하고, 이를 이용하여 특정 프로그램용 개체명 사전을 실시간으로 Stacking 하여 폐쇄자막 번역시 보다 정확한 번역을 가능하게 한다. 본 논문에서는, 디지털 TV에서의 한⇒영/일/중 폐쇄자막 다국어 자동번역 시스템을 국내 최초로 개발하였다. 다국어 개체명의 자동정렬 방법을 포함한 동적 사전 적응 방식을 뉴스 분야에 적용하여 한영, 한중, 한일 폐쇄자막 자동 번역에서 번역률에 대한 MOS (Mean Opinion Score) 평가를 실시하였다. 뉴스 도메인에서 한중 번역의 경우, 2.9에서 3.4로의 성능 향상이 이루어졌고, 한영 번역의 경우 3.1에서 3.6으로, 한일 번역의 경우 4.5에서 4.6으로 번역률의 향상을 확인할 수 있었다. 평균적으로 0.37 MOS 평가값의 향상을 이룰 수 있었다. 이 수치는 5단계로 이루어진 MOS 스케일에서 차 상위의 수준에 도달하기 위한 37%의 성능 향상을 의미한다.
more초록/요약
In this dissertation, we present a multi-lingual Machine Translation (MT) of Closed Captions (CCs) for Digital Television (DTV) by using Dynamic Dictionary Adaptation. Preliminary experiments of our CC translation with existing base MT systems had shown unsatisfactory result. One of the major reasons for this is related to translating Named Entities (NEs) of proper names. NEs are very popular in news and drama. NEs convey important information of news articles and drama scripts. So, correct translation of NEs is quite indispensable for effective comprehension of news and drama. The other one is inappropriate adaptation of domain dictionaries. Conventional MT systems lack automatic domain identification of documents to be translated. This can be a crucial weak point when we translate the news captions, because a news program reports lots of incidents belonging to different domains. In order to achieve more precise translation with conventional multilingual MT systems, we adopted Dynamic Dictionary Adaptation which is characterized by live resource acquisition of multilingual Named Entities and their translingual equivalences from Web sites of daily news, providing multilingual daily news in Chinese, English, Japanese and Korean. For news program, we propose the Dynamic Domain Identification for automatic stacking of domain dictionaries. We also utilize the Electronic Program Guide (EPG), the TV program information, in order to identify the program itself and activate program specific dictionaries containing the names of characters, locations, and organizations. With these integrated Dynamic Dictionary Adaptation approaches, we identified meaningful enhancements with MOS (Mean Opinion Score) evaluations: for Korean-to-Chinese 2.9 to 3.4, for Korean-English 3.1 to 3.6, and for Korean-Japanese 4.5 to 4.6. The average enhancement is 0.37, which means almost a third level up to the next higher MOS scale.
more