검색 상세

로드뷰 간판 이미지에서 상가 정보 추출을 위한 딥러닝 기반 상호명 영역 검출 및 인식 방법

Shop Signboard Region Detection and Recognition Method with Deep Learning for Extracting Store Information

초록 (요약문)

최근 몇 년간 네이버 맵, 카카오 맵, 구글 Street View와 같이 로드뷰 서비스를 많은 포털회사에서 꾸준히 제공해왔다. 이러한 서비스는 많은 사람들이 길을 찾거나 상가 정보를 파악하는데 유용하게 사용되고 있다. 하지만 로드뷰 이미지에서 상가 정보 추출은 사람이 직접 입력하거나, 수정해야하는 번거로움이 있다. 본 논문에서는 로드뷰에 있는 상가 간판을 대상으로 상가명및 상가 관련 정보를 추출하는 딥러닝 기반 방법을 제안한다. 제안한 상가명 영역 검출 방법은 객체 검출기를 통해 간판 객체 영역을 검출하고 글자 검출 기와 인식기를 통해 간판 내부 글자를 인식하여 언어 모델을 통해 상가명, 전화번호, 노이즈로 분류하여 상가명 영역을 검출하는 방법이다. 또한 언어 모델을 통해 상가명, 전화번호로 분류된 상가 정보를 해당 간판 객체의 상가 정보로 추출한다. 데이터 셋은 간판 이미지에서 상가 정보를 추출하기 위한 기존 데이터 셋이 없었다. 따라서 상가 정보를 추출하는 네트워크를 훈련시키고, 평가하기 위한 데이터 셋으로 Clova AI의 CORD [3] 데이터 셋에서 영감을 받아 구성한 새로운 데이터 셋을 구성하였다. 새로 구성한 데이터 셋을 활용 하여 앞서 제안된 간판 이미지로부터 상가 정보를 추출하는 방법의 성능을 평가 하였으며. 상가 정보를 추출한 결과 상가명에 대한 성능은 F1-Score 기준 0.3729를 기록하였다.

more

초록 (요약문)

In recent years, many portal companies have consistently provided Roadview services such as Naver Map, Kakao Map, and Google Street View. These services are useful for many people to find directions or to get shopping mall information. However, there is a problem that such shopping mall information must be entered or modified by a person. In this thesis we suggest the deep learning based method to detect and recognize shop signboard region for extracting store information. The proposed method is largely divided into four structures, a network for detecting text areas, a network for detecting shop signboard objects, a network for recognizing texts, and a language network for refining information through Text Parsing. However, present dataset such as ICDAR 2019 MLT [1], Total Text [2] were not suitable for training and evaluating a network that extracts commercial information because labels were composed of all texts in image. Therefore, we construct a new dataset inspired by Clova AI's CORD [3] dataset for training and evaluation of a network extracting store information, and propose a method to extract store information from shop signboard images using the system constructed of four networks. As a result of extracting the store information, the performance of the signboard title was recorded as 0.3729 based on F1-Score.

more