리뷰 및 리뷰의 시간 속성을 활용한 사용자-아이템 모델링 기반 추천 시스템 연구
Study on Recommender System based on User and Item Modeling Using Review and Time of Review
- 주제(키워드) 추천시스템 , 사용자 아이템 모델링 , 딥러닝 , 협업필터링 , 텍스트 리뷰 , 리뷰 시간 , Recommender System , User Item modeling , Deep learning , Collaborative Filtering , Text review , Review time
- 발행기관 서강대학교 정보통신대학원
- 지도교수 양지훈
- 발행년도 2021
- 학위수여년월 2021. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스
- UCI I804:11029-000000065805
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
추천은 효율적인 자원 배분을 추구하는 중요한 행위다. 기업은 제한적인 공간, 인력을 통해 최선의 매출을 기대할 수 있으며 소비자는 시간이란 중요 자원을 아낄 수 있다. 특히 비대면, 온라인 상거래 환경으로의 전환이 가속화되는 상황에서 수많은 정보 중 사용자에게 적합한 상품의 추천은 매우 중요한 과제이다. 2006년부터 2009년까지 진행된 넷플릭스의 영화 평점대회(Netflix Prize)를 통해 더욱 유명해진 협업 필터링(Collaborative Filtering)은 특히 사용자 간의 선호도나 관심에서 비슷한 패턴을 가진 고객들을 식별해내고, 이를 바탕으로 다시 유사한 패턴을 가진 아이템 정보를 제공하는 개인화된 추천 방법이다. Netflix Prize의 경우 사용자와 아이템에 대한 다른 식별정보 없이 각각의 ID와 평점만으로 협업 필터링 기법이 적용되었지만 최근 심층 신경망을 통해 특징 추출과 분류를 스스로 최적화하는 표현 학습의 발전과 함께 다른 부가정보를 이용한 다양한 기법들이 발전하고 있다. 특히 그 동안 방대한 양과 비정형성으로 인해 추천시스템의 직접적인 설명변수로 사용되기 어려웠던 리뷰 데이터의 경우 역시 심층 학습 기술의 발전과 함께 많은 연구가 되고 있다. 리뷰를 심층 신경망 및 협업 필터링 기법을 기반으로 추천에 사용한 연구 Zheng et al.(2017)는 Deep Cooperative Neural Networks(DeepCoNN)라는 이름으로 두 개의 병렬적인 CNN과 Factorization Machine(FM)으로 구성된 모델을 제안했다. 해당 모델은 평점 예측이라는 지도학습 문제를 통해 리뷰에 사용된 단어와 맥락 정보에서 추출된 사용자 특징벡터와 아이템 특징벡터를 각각 학습한다. 이 모델은 순수하게 평점 정보만을 가지고 평점예측을 진행하는 다른 모델보다 성능에서 우위를 보였다. 본 연구에서는 리뷰가 작성된 시간이라는 속성을 추가적으로 활용하여 기존 연구에서 제안된 모델 DeepCoNN을 개선한 DeepCoNN with Time을 제안한다. 단순히 리뷰에 사용된 단어를 가지고 사용자와 아이템의 패턴을 추출하는 것보다도 리뷰가 작성된 시간이라는 추가적인 속성을 입력에 대한 전처리와 모델에 반영할 경우 성능이 개선될 수 있음을 실험을 통해 확인할 수 있었다. 리뷰의 개수를 전체가 아닌 최근 k개로만 제한하고 시간에 따른 리뷰 간 변화를 캡쳐한 본 제안 모델의 경우 좀 더 개선된 성능을 보였다. 그 결과 리뷰를 사용자 및 아이템을 모델링할 수 있는 ‘히스토리’라는 관점으로 활용하는 것이 효과적임을 알 수 있다. 이에 리뷰 및 리뷰의 시간 속성을 통해 사용자 아이템을 모델링할 수 있는 추가적인 연구의 필요성을 확인할 수 있었다.
more초록/요약
Recommendation is an important act to ensure efficient resource allocation. Companies can expect the best sales result through limited space and manpower and consumers can save time which is invaluable. In particular, recommendation for users has become more significant task under this unprecedented era, where transition to online, untact environment is accelerating. The Collaborative Filtering (CF) algorithm, which became more popular through Netflix Prize, held from 2006 to 2009 by Netflix, identifies customers with similar patterns in preference and interest among users. This is a personalized recommendation method that can provide item information based on rating interaction between users and items. In the case of the Netflix Prize, CF technique was applied only with IDs without any other identification information about users and items, but recently, with the development of representation learning that optimizes feature extraction and classification by itself through deep neural networks, various techniques using other additional information are developing. Review data, which has been difficult to fully utilize as a direct explanatory variable for the recommender system due to its large amount and unstructuredness, is being studied with the development of deep learning technology. A study that used reviews for recommendation based on deep neural network and CF algorithm, Zheng et al. (2017), proposed a model consisting of two parallel CNNs and layer similar to factorization machine (FM) called Deep Cooperative Neural Networks (DeepCoNN). This model learns the user feature vectors and item feature vectors extracted from the words and their sequences used in reviews through a supervised learning for rating prediction. It showed improved performance over other purely rating based models. In this study, DeepCoNN with Time is proposed, which improves the model DeepCoNN in the previous study by additionally utilizing the attribute of the review time. Rather than simply extracting the pattern of users and items with the words used in the review, it was confirmed through experiments that performance can be improved if the additional attribute of the time the review was written is reflected. It has been observed that even if the number of reviews is limited to only recent ones the modeling power can be increased. In addition, modelling the changes of item properties and user behaviors over time may also influence for better performance. As a result, it can be seen that it is effective to use reviews as a'history' to model users and items. Accordingly, it was possible to confirm the need for additional research that can model user and items through reviews and the time attributes of reviews.
more