제한된 메모리 하에서 잡음에 강인한 음악식별 시스템 구현 및 프레임 비동기에 대한 식별율 향상
Implementation of Noise Robust Music Identification System under Limited Memory Constraints and it’s Performance Improvement for Frame Desynchronization
- 주제(키워드) 음악 식별 , 잡음 , 프레임 비동기
- 발행기관 서강대학교 일반대학원
- 지도교수 김지환
- 발행년도 2012
- 학위수여년월 2012. 2
- 학위명 석사
- 학과 및 전공 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000047317
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작원 보호를 받습니다.
초록/요약
본 논문은 제한된 메모리 제약 조건 하에서 잡음 환경에 강인한 음악식별 시스템을 구현하고, 프레임 비동기의 영향을 분석하여 식별성능을 개선한다. 오디오 신호를 질의로 사용하는 음악식별 시스템을 구현하기 위해 두가지 이슈를 고려해야한다. 첫 번째는 잡음 및 프레임 비동기로 인해 마이크로 녹음한 음악 신호와 원음사이에 차이가 발생하는 것이다. 두 번째는 대량의 음악 데이터를 메모리에 저장하기 위해 메모리를 효율적으로 사용하는 것이다. 본 논문에서는 오디오 핑거프린팅 방법 중 하나를 적용하여 잡음에 강인한 음악식별 시스템을 구현한다. 이 방법으로 음악식별 시스템을 구현하기 위해서는 다양한 파라미터 값을 결정해야하지만, 현재 적절한 파라미터 값들은 공개되어 있지 않다. 본 연구에서는 실험을 통해 파라미터 값을 결정하여 음악식별 시스템을 구현한다. 실험 결과를 바탕으로 1초당 해쉬 키의 수, 1초당 anchor point의 수, target zone distance, target zone width, target zone height를 각각 100, 100, 1, 25, 25로 결정하였다. 위의 파라미터들을 적용하여 음악식별 시스템을 구현한 결과 SNR 0dB에서 입력이 3초일 때 86.9%, 5초일 때 94.3%, 10초일 때 99.3%의 식별율을 보였고, 1.05GB의 메모리 사용량을 보였다. 프레임 비동기 하에서 강인한 음악식별 시스템을 구현하기 위해 프레임 비동기가 오디오 핑거프린트에 미치는 영향을 분석한 결과, 비동기 하에서 생성한 peak point의 44.5%만 원곡의 peak point와 동일한 위치에 생성되었고, 비동기 하에서 생성한 peak point들의 44.67%가 원곡의 peak point의 이전 프레임이나 다음 프레임에 생성되는 것을 확인하였다. 프레임 비동기의 영향을 줄이기 위해 해쉬 키 후보 생성 방법을 적용한 음악식별 시스템을 제안하였다. 해쉬 키 후보 생성을 적용한 음악식별 시스템의 식별율 측정결과 SNR 0dB에서 입력신호가 3초일 때 6.7%, 5초일 때 4%, 10초일 때 0.7%의 성능 향상을 보였다.
more초록/요약
The work in this thesis concerns implementation of noise robust Music Identification System(MIS) under limited memory constraints and improves the identification rate of MIS through performance analysis under frame desynchronization. To implement MIS using recorded audio signal as query, two issues should be considered. First, difference between query signal and original music due to noise and frame desynchronization. Second, efficient memory management for a large collection of music data. In this thesis, one of the audio fingerprinting algorithms is applied for the implementation of noise robust MIS. There are a couple of implementation parameters which are determined empirically. However, to the best of our knowledge, the appropriate values of the parameters are unknown. In this thesis, the number of hash keys per second, the number of anchor points per second, target zone distance, target zone width, target zone height were determined through experiments as 100, 100, 1, 25, 25, respectively. The MIS with these parameters demonstrated identification rate of 86.9%, 94.3%, 99.3% for 3-second, 5-second, 10-second query signal, respectively, on SNR 0dB. 1.05GB was used for this implementation. To implement robust MIS under frame desynchronization, the effect of frame desynchronization on audio fingerprint should be analyzed. As a result, only 44.5% of the peak points under desynchronization are identical with their corresponding peak points in their original signals. 44.67% of the peak points under desynchronization are generated at their previous frames of original peak points or the next frames. To reduce the effect of frame desynchronization, MIS using hash key candidate generation is proposed. The proposed MIS has improved the identification rate for 3-second, 5-second, 10-second query on SNR 0dB by 6.7%, 4%, 0.7%, respectively.
more

