검색 상세

특이값 통합 기반의 실시간 오디오 분류

Real-time Audio Classification based on Singular Value Integration

초록/요약

문화 산업의 부흥으로 다양한 매체가 끊임없이 개인에게 유입되고 있으며 이러한 미디어의 홍수 속에서 미디어분류시스템(Media Classification System)에 대한 필요성과 관심이 높아지고 있다. 보다 정확한 미디어분류시스템의 구축을 위한 초석으로 본 논문에서는 혼합된 오디오 신호를 음성과 음악 및 환경잡음 등으로 분류하는 연구를 수행하였다. 보편적으로 미디어분류시스템에는 기계학습 기법이 많이 사용되며 특히 영상이나 오디오를 자동분류를 할 경우 실시간으로 부분적 데이터를 처리할 것인지, 혹은 데이터 전체를 처리할 것인지에 대한 논점이 있으나 본 논문에서는 전자의 방법을 사용했다. 실시간 오디오 분류의 주요 단계는 미가공 데이터의 짧은 범위에서 특징 벡터를 얻어내는 특징 추출(Feature Extraction)단계, 뽑아낸 여러 특징 벡터의 수열을 통합하여 하나의 대표 벡터로 표현하여 차원을 감소시키는 특징 통합(Feature Integration)단계, 그리고 이 대표 벡터를 여러 분류기를 써서 분류해 내는 분류(Classification)의 단계로 이루어진다. 본 논문에서 사용한 오디오의 주요 특징은 MFCC(Mel-Frequency Cepstral Coefficient), Periodicity, ZCR(Zero Crossing Rate), 그리고 Band Energy이다. 추출한 특징 벡터의 수열을 특이값 분해(Singular Value Decomposition)를 이용하여 하나의 벡터로 통합하였으며 이를 SVM, C4.5 등의 분류기에 적용시켜서 기존의 평균, 분산을 이용한 통계적인 특징 통합 방법과 비교하였다. 더하여 장르의 다양성으로 인해 분류가 어려운 음악 분류기의 성능향상을 위해 박자 탐지기(Beat Detector)를 응용한 음악분류보조기(Music Classifier Assistant)를 분류기의 외부에 추가하였다. 총 8기가의 음원 데이터를 이용한 실험을 통해 제안한 방법들의 성능을 검증하였다. 특이값 분해를 이용한 특징 통합방법은 기존 방법들보다 뛰어난 성능을 보여주었으며 또한 약 800메가의 실제 방송 데이터를 사용하여 분류기의 일반적인 성능을 확인하였다. 더하여 박자 탐지기는 음악 데이터 분류의 성능을 더 향상시켜주었다.

more

초록/요약

The flourish of culture industry brings various media to the individual and there is a rising interest on media classification system. In this paper, we researched on classifying mixed audio signal as music, speech and environment noise for construction of more accurate media classification system Generally, machine learning techniques are often used for media classification system. In case of automated classification, there is an issue of performing real-time partial audio data processing or static whole data processing. In this paper, we considered the former method. The process of real-time audio classification consists of feature extraction phase which extracts the feature vector from raw data, feature integration phase which integrates the sequence of feature vectors into one feature vector for dimensionality reduction, and classification phase which classifies audio data using various classifiers. The features used in our research are MFCC(Mel-Frequency Cepstral Coefficient), Periodicity, ZCR(Zero Crossing Rate) and Band Energy. We integrated the sequence of extracted feature vectors into one vector using singular value decomposition and classified it using SVM and C4.5 classifiers. In addition, we also designed the music classifier assistant based on the beat detector to improve the performance of the music classifier for various music genre. We proved the superiority of proposed methods through experiments with 8 gigabytes of sound samples. Feature integration method using singular value decomposition produced better performance than other methods. We also verified general performance of proposed methods using 800 megabytes of actual broadcast sound samples. In addition, the music classifier assistant was verified to improve the classification accuracy of the music classifier.

more