검색 상세

BERT 기반의 속성 감성 분류를 위한 불균형 데이터 환경에서의 성능 개선 연구

Performance Improvement Study in Imbalanced Data Environments for BERT-Based Aspect Sentiment Classification

초록 (요약문)

속성 기반 감성 분석(Aspect-Based Sentiment Analysis)은 기존의 감성 분석(Sentiment Analysis)에 비해 정교한 감성 분류 결과를 제시함으로써 분석 결과의 활용성을 높이고 비즈니스 측면에서 더욱 실질적인 가치를 제공한다. 특히, 속성(Aspect)에 대한 감성을 분류하는 데 중점을 두는 속성 감성 분류(Aspect Sentiment Classification)는 속성 기반 감성 분석의 하위 과제(Sub-Task)로서 중요한 의미를 가지고 있다. 최근, BERT 기반의 사전 학습 언어 모델(Pre-trained Language Model)을 활용한 연구가 활발하며 우수한 성능이 증명되고 있다. 한편, 속성 감성 분류는 일반적으로 속성의 분포가 고르지 않거나 긍정·부정 데이터의 클래스(Class)가 불균형한 환경에서 이루어지기 때문에 불균형 데이터 문제(Imbalanced Data Problem)를 극복하고 다수 클래스(Majority Class)의 편향성을 극복하는 것은 중요한 일로 사료되며 연구의 필요성을 느낀다. 본 논문에서는 화장품 상품평 데이터를 활용하여 BERT 기반의 속성 감성 분류를 진행하였다. 화장품 상품평 데이터가 가지고 있는 온라인 리뷰 긍정 편향성으로 인한 불균형 데이터 문제를 해결하기 위해 데이터 증강 및 샘플링 기법과 배깅(Bagging) 기반의 앙상블 분류기를 활용함으로써 분류 성능을 향상하고자 하였다. Multilingual BERT를 Base Model로 하여 성능 영향도를 파악하였다. KoBERT, KcBERT, HanBERT와 같은 한국어 Pre-trained Model을 적용함으로써 분류 성능이 어떻게 변하는지 분석하였다.

more

초록 (요약문)

Aspect-based sentiment analysis increases the utilization of analysis results and provides more practical value in business terms by presenting more sophisticated sentiment classification results compared to traditional sentiment analysis. In particular, aspect sentiment classification, which focuses on identifying the sentiment polarity into aspects, has important implications for aspect-based sentiment analysis as a sub-task. Recently, research using the BERT-based pre-trained language model has been active and has excellent performance. However, it is essential to overcome the imbalanced data problem and the majority class bias because of the generally uneven distribution of aspects or the imbalanced classes of positive and negative data in aspect sentiment classification. In this paper, we performed BERT-based aspect sentiment classification using cosmetics product reviews. To solve the imbalanced data problem caused by the online review positivity bias, we tried to improve classification performance by utilizing data augmentation and sampling techniques and bagging-based ensemble classifiers. We used Multilingual BERT as the base model to identify the performance impact. We analyzed how classification performance changes by applying Korean pre-trained models, such as KoBERT, KcBERT, and HanBERT.

more