검색 상세

가창 발성 평가를 위한 데이터셋 구축 및 심층 신경망 학습

Deep Neural Networks and Datasets for Vocalization Evaluation

초록 (요약문)

The singing voice is the use of a human voice as an element of musical expression. In various genres, such as vocal music, musicals, and popular music, human voices are used as important instruments. Singing voice has a variety of expressions depending on how singers make sounds. Thus, singing voice is classified according to vocal techniques, especially in the field of vocal education. However, vocal education often relies on the discretion of an instructor, even in a university. Therefore, this paper presents a deep neural network system for evaluating human vocalization and the Vocalization Dataset for training such models. While the previous quantitative evaluation of singing voice focused on the precision of pitch and rhythm, this paper proposes another criterion for the evaluation: the quality of vocalization. Two advisors and fourteen subjects were recruited to proceed with the construction of the `Vocalization Dataset.' The `Vocalization Dataset' consists of about 1 hour and 40 minutes for each person. In addition, `Vocalization Dataset' is annotated wtih various labels. The lables are gender average vocal range {(male C3-B4), (female C4-F5)}, vowel pronunciation (A, E, I, O, U), four vocal types (Good, Hyperventilation, Physical Tension, Excessive Pressure of Vocal Cord), and microphones with different conditions, such as AKG_C414, Apple_iphoneXS, Neumann_KM184, Royer Labs_R-121. The dataset showed 84.17% accuracy in the semantic evaluation for general people and 64.54% accuracy in the evaluation with a deep neural network.

more

초록 (요약문)

가창은 인성을 사용하는 것으로 성악, 뮤지컬, 대중음악 등 다양한 장르에서 음악적 표현의 요소로 사용되는 중요한 악기다. 그러나 가창은 교수자의 영향이 큰 도제식 교육의 특성을 지니고 있어 상위 교육 기관인 대학에서도 교수자의 재량에 의존하는 경우가 대부분이다. 이에 본 연구에서는 인간의 가창 발성을 평가하기 위한 심층 학습 신경망 시스템과 심층 학습 신경망을 학습시키기 위한 ‘발성 데이터셋’을 제안한다. 본 연구는 신뢰 있는 가창 발성 평가 시스템 학습을 위해 음악 교육기관과 협력하여 보컬 교수 1명, 사운드 디자인 교수 1명을 자문 위원으로 두고 보컬리스트 14명을 섭외하여 ‘발성 데이터셋’ 구축을 진행하였다. ‘발성 데이터셋’은 인당 약 1시간 40분 분량으로 구성되어 있으며, 성별 평균 음역대 {남자(C3-B4), 여자(C4-F5)}와 기본 모음 발음(A, E, I, O, U) 및 네 가지 발성 종류(좋은 발성, 과호흡 발성, 신체적인 긴장 발성, 성대의 과도한 압력 발성), 다양한 특성의 마이크(AKG_C414, Apple_iphoneXS, Neumann_KM184, Royer Labs_R-121)로 구성되어 있다. 본 연구를 통해 구축한 발성 데이터셋은 일반인을 대상으로 한 의미정확성 평가에서 84.17%의 분류 정확도 비율을 보였고, 이를 심층 신경망 분류 모델이 학습하였을 때 전체 분류 정확도 비율은 64.54%로 나왔다. 본 연구는 기존의 가창 상태를 평가하는 음고, 음량, 박자를 떠나 발성이라는 기준이 정해지지 않은 분야를 평가했다는 것에 의의가 있다.

more