검색 상세

불특정 기기에서의 성능 향상을 위한 로그 멜-스펙트로그램 분리를 이용한 합성곱 신경망 기반 오디오 이벤트 분류 : CNN-based Audio Event Classification Using Log Mel-Spectrogram Separation for Performance Improvement on Unknown Devices

초록/요약

오디오 이벤트 분류는 오디오 데이터에 포함된 개 소리, 경적 소리와 같은 비언어적 신호를 컴퓨터가 검출하고 분류하는 것이다. 최근 Deep Neural Network (DNN)은 오디오 이벤트 분류 문제에 적용되어 기존 모델 대비 높은 성능 향상을 보이고 있다. 그 중에서도 오디오 데이터를 2차원 이미지인 spectrogram으로 입력받는 Convolution Neural Network(CNN) 기반 학습 방법이 많이 사용되고 있다. 하지만 오디오 이벤트 분류는, 학습 데이터를 녹음하는데 사용된 known devices와 별개의 unknown devices에서 녹음된 테스트 데이터 상의 성능이 떨어진다는 문제점이 있다. 이는, 녹음에 사용되는 장치마다 강조되는 주파수 영역대가 다르므로, known devices에서 생성된 spectrogram과 unknown devices에서 생성된 spectrogram의 모양이 서로 상이하기 때문이다. 본 연구에서는 unknown devices 상에서도 이벤트 분류 시스템의 성능을 향상시키기 위하여, 이벤트 분류 시스템에 log mel-spectrogram 분리 기법에 기반한 CNN을 적용했고, unknown devices에서의 성능을 평가하였다. 구현된 시스템 16가지 오디오 신호를 분류할 수 있는 시스템이며, 0.4초 길이의 오디오 데이터를 입력 받고, known devices에서 생성된 학습자료로 학습된 모델로 unknown devices에서 생성된 테스트 자료에서의 정확도를 측정하였다. 실험 결과, baseline 대비 성능이 대비 Google Pixel 기준 63.63%에서 73.33%로, LG V50 기준 47.42%에서 65.12%로, 최대 37.33%의 상대적 향상 (relative improvement)을 보였다.

more

초록/요약

Audio event classification is a computer detects and classifies non-verbal signals such as dog sounds and horn sounds included in audio data. The Deep Neural Network (DNN), which has recently attracted attention in the field of machine learning, has been applied to an audio event classification problem, showing excellent performance improvement. Among them, a method of visualizing audio data as a two-dimensional image called a spectrogram and learning it with a Convolution Neural Network (CNN) suitable for an image classification problem is widely used. There are various problems to be solved in the classification of audio events. Among them, there is a problem of poor performance when data to be used for testing are recorded through unknown devices different from known devices used to record training data. As a result of analyzing the waveform of the data recorded with unknown devices, there was a characteristic that the shape of the spectrogram made of known devices and the spectrogram made of unknown devices was different because the frequency band emphasized was different for each device used for recording. In this study, we propose a CNN using log mel-spectrogram separation to create an event classification system for improving performance in these unknown devices. For the problem of receiving 0.4 second long audio data as input and classifying it into 16 audio signals, the accuracy of unknown devices of the data was obtained with a learned model recorded with known devices. As a result, the performance of Google Pixel and LG V50 selected as unknown devices improved from 63.63% and 47.42% to 73.33% and 65.12%, respectively, compared to baseline.

more