검색 상세

내용 유사도 비교 기반의 스패머 검출 방법

A Spammer Detection Method based on the Comparison of Content Similarity

초록/요약

As e-commerce has sharply grown, on-line purchases have increased. When customers buy a product on the internet, they use other customers' reviews of the product, which are a channel to acquire objective information, as the most reliable information. But, along with an increase in such customers, spam reviews that are aimed at promoting and advertising have been on the substantial rise. Since everyone can write freely after subscription, spammers take advantage of the feature by writing recklessly, disguising some writing as reviews, or posting reviews through a programmed spambot. Like this, spams have also evolved. A generally used anti-spam technique is designed to identify a spam by checking that any spam words are included in a document or a text. But, recently evolved spams include special characters or space character between words, or intentional typos. Futhermore, some spams that are already registered via a detour are hard to be caught. Therefore, to handle the spams, the anti-spam technique should continue to be upgraded. To improve accuracy and performance of spam filtering, this work investigated spammers who write spams. The proposed technique in this work is to use spammers' characteristics and compare a writer's previous reviews with spams to identify spams; to use the feature that spammers' spams targeting the same object have high similarity, group spammers unknown to a system on the basis of registered spam reviews, and thereby handle the spams already registered. Test results showed that the proposed technique was better than the conventional spam filtering technique in terms of performance, and that it detected other spammers in a system.

more

초록/요약

최근 전자상거래의 폭발적인 증가로 온라인 구매 시 사용자들은 객관적인 정보 획득의 창구로 다른 사용자들의 리뷰를 가장 신뢰성 있는 정보로 활용하고 있다. 하지만 사용자의 증가와 더불어 홍보, 선전 등의 목적으로 작성되는 스팸 리뷰도 폭발적으로 증가하고 있다. 스패머들은 회원 가입만 하면 누구나 자유롭게 글을 쓸 수 있다는 이점을 활용하여 무차별적으로 글을 작성하기도 하고, 실제 사용후기로 위장한 글, 프로그래밍 된 스팸봇을 통한 등록 등 최근에는 스팸도 진화하고 있다. 일반적으로 사용되고 있는 스팸 방지 기법은 입력되는 문서 내에 스팸 단어의 출현여부로 스팸을 식별하고 있어, 단어 사이에 특수문자나 공백을 입력한 단어나 고의적으로 맞춤법을 틀린 단어 같이 진화되어 가는 스팸 처리를 위해서는 계속적인 유지보수가 필요하다는 단점이 있다. 또한 이렇게 우회적인 기법 등으로 이미 등록된 스팸에 대한 처리가 미비한 실정이다. 본 논문에서는 스팸 필터링의 정확도와 성능을 향상시키기 위하여 스팸을 작성하는 스패머에 대한 연구를 진행하였다. 발견된 스패머의 특성을 활용하여 작성자가 이전에 작성한 리뷰와의 유사도 비교를 통하여 스패머를 식별하고, 같은 대상을 홍보하는 스패머들의 스팸 문서는 유사도가 높다는 특성을 활용하여 등록되는 스팸 리뷰로부터 시스템의 알려지지 않은 스패머를 그룹화 하여 이미 등록되어 있는 스팸에 대한 처리가 가능한 방법을 제안하였다. 실제 이러한 방법을 추가함으로 기존의 단어 출현 여부의 스팸 필터링 방법을 사용하는 것보다 성능이 향상되고, 시스템 내의 다른 스패머를 찾아낼 수 있음을 실험 결과를 통해 알 수 있었다.

more