검색 상세

Adapting object detection techniques for beat tracking in musical audio

음악 오디오의 박자 추출을 위한 객체탐지 기법 적용

초록 (요약문)

Beat and downbeat tracking is a fundamental task in music signal processing and has numerous applications in music analysis and generation, but most neural networks rely on the use of dynamic Bayesian networks (DBNs) to extract a final set of predicted beats. This paper proposes a DBN-free approach for beat and downbeat tracking while leveraging components commonly found in object detection. The FCOS object detection model is modified to take 1D music audio as input using the WaveBeat beat tracking model as its backbone, integrated with a Feature Pyramid Network (FPN) to capture hierarchical features. One key contribution is the elimination of the need for post-processing with DBNs, which are traditionally used for external correction. This is done by teaching the model to produce a final set of beats by learning not just beat times but also the length of intervals between each pair of beats. This approach is compared with the same music datasets used by WaveBeat, showing competitive results when matched up with WaveBeat using DBNs. This work also demonstrates the ability of using object detection techniques for beat and downbeat tracking in musical audio without significant changes.

more

초록 (요약문)

비트 및 다운비트 추적은 음악 신호 처리의 기본 작업이며 음악 분석 및 생 성에 수많은 응용 프로그램이 있지만 대부분의 신경망은 예측된 비트의 최종 집합을 추출하기 위해 동적 베이지안 네트워크(DBN)의 사용에 의존한다. 본 논문은 객체 탐지에서 일반적으로 사용되는 구성 요소를 활용하면서 비트 및 다 운비트 추적을 위한 DBN이 없는 접근 방식을 제안한다. FCOS 객체감지 모델은 WaveBeat 비트 추적 모델을 백본(backbone)으로 사용하여 1D 음악 오디오를 입력으로 받아들이도록 수정하며, 계층적 특징을 포착하기 위해 기능 피라미드 네트워크(FPN)와 통합한다. 한 가지 중요한 기여는 전통적으로 외부 수정에 사 용되는 DBN을 사용하여 사후 처리할 필요가 없다는 것이다. 이는 모델에게 비트 시점 뿐만 아니라 각 비트 쌍 사이의 간격 길이를 학습하여 최종 비트 집합을 생성하도록 학습시키는 것으로 수행된다. 이 접근 방식은 WaveBeat에서 사용하 는 동일한 음악 데이터 세트와 비교되며, DBN을 사용하는 WaveBeat과 일치할 때 경쟁력 있는 결과를 보여준다. 이 연구는 또한 큰 변화 없이 음악 오디오에서 비트 및 다운비트 추적을 위해 객체탐지 기술을 사용할 수 있는 것을 보여준다.

more