검색 상세

스트리밍 환경에서 차분 프라이버시를 적용한 빈발 항목 집합 마이닝의 예산 할당 기법

Budget Allocation of Frequent Itemset Mining with Differential Privacy in Streaming Environment

초록/요약

무선 인터넷과 스마트폰의 발전으로 인해 실시간으로 수많은 스트리밍 데이터가 생성되고 있다. 이에 따라 사용자의 정보를 수집하여 분석하는 데이터 마이닝은 여러 분야에서 사용되고 있다. 예를 들어 사용자의 민감한 정보인 검색 이력, 사이트 방문 이력, 주식 구입 기록, 건강 정보 등을 수집한다. 수집한 데이터를 분류하고, 연관성을 이용하여 규칙이나 패턴을 찾는 빈발 항목 집합에 대한 연구가 많이 되고 있다. 빈발 항목 집합을 이용하여 마케팅 또는 데이터 분석에서 활용할 수 있다. 스트리밍 데이터 환경에서는 기존의 정보들뿐만 아니라 시간에 대한 정보가 노출 될 수 있다. 그리고 각 시간 단위마다 정보를 배포해야 하기 때문에 제한된 시간 내에 결과를 내야 한다. 그러므로 기존의 빈발 항목 집합을 구하는 알고리즘과는 다르게 스트리밍 환경에 맞게 윈도우마다 빈발 항목 집합을 구하는 알고리즘을 제안하는 연구들도 있다. 배포되는 빈발 항목 집합들은 여러 사용자들로부터 얻어진 데이터이기 때문에 프라이버시 문제가 없어 보이지만 강력한 사전지식을 가진 공격자는 빈발 항목 집합으로부터 사용자의 정보를 추론할 수 있다. 개인의 민감한 정보를 보호하기 위해서 차분 프라이버시 기법이 필요하다. 따라서 본 논문에서는 실험을 통해 배포되는 빈발 항목 집합의 정확도와 수행 시간이 기본적인 기법보다 개선되는 것을 보이고, 차분 프라이버시 기법을 적용하여 사용자 개인의 프라이버시를 보호하면서 스트리밍 환경에서 효율적으로 빈발 항목 집합을 찾는 기법을 제안하고자 한다.

more

초록/요약

With the development of wireless Internet and smartphone, a lot of streaming data is being generated in real time. Data mining, which collects and analyzes user information, has been used in many fields. For example, It collects user’s sensitive information such as search history, site visit history, stock purchase history, and health information. There is a lot of research on frequent itemsets that classify collected data and find rules or patterns using associations. It can be also used in marketing or data analysis using frequent item sets. In a streaming data environment, information on time as well as existing information can be exposed. And because you have to give out the output for each time unit, you have to produce results within a limited time. Therefore, unlike the existing frequent item set algorithm, there are some algorithms that propose a frequent item set for each window according to the streaming environment. Since frequent itemsets are data obtained from several users, it seems that there is no privacy problem. However, an attacker with strong prior knowledge can infer user information from frequent itemsets. Differential privacy is needed to protect sensitive personal information. Therefore, in this thesis, we show that the accuracy and execution time of frequent itemsets through experiments are improved compared with the basic technique. Also, proposed algorithm is protected by applying differential privacy scheme to efficiently find frequent itemsets in streaming environment.

more