데이터 증강을 이용한 이상 기계음 감지
CNN Based Anomalous Machine Sound Detection With Data Augmentation
- 주제어 (키워드) 딥러닝 , 오디오분류 , 클래스 불균형 학습 , 데이터증강 , Deep Learning , CNN , Mobilenetv2 , Audio Classification , Class imbalanced learning , Data Augmentation
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2023
- 학위수여년월 2023. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000076430
- UCI I804:11029-000000076430
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
이상 소리 감지(Anomalous Sound Detection, ASD)는 기계로부터 발생하는 소리가 정상적인지 이상한지를 판별하는 작업이다. 그러나 현실 데이터는 대부분 긴 꼬리 분포를 갖는다. 이는 특정 클래스의 데이터 양이 상대적으로 매우 적어서 전체 데이터 분포 그래프가 긴 꼬리 형태를 나타내는 것을 의미한다. 특히, 이상 감지(anomaly detection)와 같은 경우에는 이상을 나타내는 데이터가 극단적으로 적다. 신경망 모델에서 불균형한 데이터를 사용하여 학습할 때, 클래스 간 데이터 불균형은 분류 작업을 학습하는 데 방해 요소이다. 특히 소수 클래스의 다양성 부족으로 인한 Long-tailed 데이터셋으로 학습하는 경우에는 더욱 어려워지는 경향이 있다. 본 논문은 소수 클래스의 다양성 부족으로 인한 Long-tailed 데이터셋으로 학습하는 경우에는 데이터 편향을 극복하기 위한 접근 방법을 제안한다. 본 연구에서는 Mix up, Masking, Rolling Method를 확률 분포에 의존하여 동시에 활용하고자 한다. 기존의 연구에서는 이 중 하나를 선택하여 적용했다. 하지만 본 논문에서는 각 방법이 가진 장점을 좀 더 효율적으로 사용하기 위해서, Uniform 분포에서 3개의 랜덤 난수를 생성하여, 0.5의 확률로 각각의 방법들의 사용 여부를 결정하는 방법을 활용하기로 한다. 그리고 Baseline(HVAE, AutoEncoder)과 CNN모델(Plain CNN, MobileNetV2, EfficientNet-B0)과의 성능 비교를 통해 불균형 데이터의 편향을 완화해 적합한 CNN모델의 결과를 보여준다.
more초록 (요약문)
Anomalous Sound Detection (ASD) is the task of determining whether the sound generated from a machine is normal or abnormal. However, real data mostly have long-tailed distributions. This means that the amount of data of a specific class is relatively very small, so that the entire data distribution graph shows a long tail. In the case of anomaly detection particularly, data representing anomalies may be extremely small. When training with imbalanced data in a neural network model, data imbalance between classes can be a hindrance to learning classification tasks. In particular, it tends to be more difficult when learning with long-tailed datasets due to the lack of diversity in minority classes. This paper proposes an approach to overcome data bias when learning with a long-tailed dataset due to the lack of diversity of minority classes. In this study, the Mix up, Masking, and Rolling Methods are intended to be used simultaneously based on the probability distribution. In the existing studies, only one of the methods was selected applied. However, in order to use the advantages of each method more efficiently, this study will explore the means to generate three random numbers from a uniform distribution and determine whether to use each method with a probability of 0.5. By comparing the performance of the baseline and CNN model, the bias of imbalanced data is mitigated and the result of the appropriate CNN model is shown.
more