검색 상세

실환경 한국어 텍스트 인식 방법에 관한 연구

A Study on Uncontrolled Korean Scene Text Recognition

초록

Scene Text Detection 과 Recognition은 일상적인 환경의 영상에서의 텍스트를 검출 및 인식하는 문제이다. 최근에는 딥러닝 모델을 이용한 STR 연구가 다양한 응용 분야에 활발하게 진행되고 있다. 문서 상의 텍스트를 인식하는 광학 문자 인식(OCR)과 달리 일상적인 영상에서의 텍스트는 폰트, 크기, 모양 등 다양한 특징을 가지고 있기 때문에 STR은 훨씬 난이도가 있는 문제이다. 또한 STR은 영어 및 중국어 같은 외국어에 비해 한국어에 대한 성능이 낮다. 본 논문에서는 한국에서 수집할 수 있는 영상에서의 텍스트 인식을 위해서 한국에서의 관광 브이로그 동영상을 샘플로 하여 연구를 진행하였다. 먼저, 기존 STR의 데이터 셋에 대해 비교 분석한 후, 한국어 위주의 데이터 셋을 구축하였다. 그 후 텍스트의 특징에 따라 데이터 셋을 구분하였는데, 본 논문에서는 가로 텍스트, 세로 텍스트, 곡선 텍스트, 켈러그래피 텍스트 4가지로 구분하여 사용하였다. 이를 바탕으로 본 논문은 영상 속에서의 한국어 및 영어 텍스트 인식을 위한 적합한 네트워크 구조를 찾기 위해 다양한 네트워크 구성의 성능을 4가지 유형의 텍스트에 대해 각각 측정 및 분석하였다. 또한 브이로그 영상 속 일상적인 텍스트와 편집자가 임의로 삽입한 텍스트를 규칙 기반 방법으로 구분하여 최종적으로 일상적인 텍스트 인식을 하고자 하였다.

more

초록

Scene Text Detection and Recognition are problems of detecting and recognizing text in images of wild environments. Recently, STR research using deep learning models has been actively conducted in various application fields. Unlike Optical Character Recognition (OCR), which recognizes text in documents, STR is a much more difficult problem because text in everyday images has various characteristics such as font, size, and shape. In addition, STR has lower performance in Korean than foreign languages such as English and Chinese. In this paper, for text recognition in images that can be collected in Korea, a study was conducted using tourism Vlog videos in Korea as samples. First, after comparing and analyzing the data sets of the existing STR, a Korean-oriented data set was constructed. After that, datasets were classified according to the characteristics of the text, and this paper, they were classified into four types: horizontal text, vertical text, curved text, and calligraphy text. Based on this, this paper measured and analyzed the performance of various network configurations for each of the four types of texts in order to find an appropriate network structure for Korean and English text recognition in the video. In addition, the daily text in the Vlog video and the text inserted by the editor were divided into rule-bases methods to finally recognize the daily text.

more