검색 상세

차분 프라이버시에서 추론 공격을 완화시키기 위한 상관 속성의 노이즈 파라미터 설정 기법

A Noise Parameter Setting Technique of Correlated Attributes for Mitigating Inference Attack on Differential Priavcy

초록/요약

정보화 사회의 핵심 가치인 데이터는 오늘날 빅데이터 시대를 맞아 더욱더 중요해지고 있다. 또한 데이터 분석 기술의 발전과 더불어 개인의 식별 문제, 민감한 데이터의 노출 문제 등과 같은 프라이버시 침해의 가능성도 증가하고 있다. 이러한 문제를 해결하기 위한 기법 중 차분 프라이버시(Differential privacy)는 통계 데이터베이스 상에서의 프라이버시 보호라는 개념을 수학적으로 모델링 하고자 시도한 최초의 연구이다. 이는 통계 질의의 정확성과 프라이버시 보호의 상충 관계를 개선하는 것으로 제시되었고, 현재는 프라이버시 보호 연구의 사실상 표준으로 자리잡고 있다. 차분 프라이버시는 데이터를 배포하지 않고 모집단에 대한 통계 결과만을 공개한다. 이때 특정 개인의 기여도를 알지 못하도록 통계 질의 결과에 노이즈를 섞어 보내는 방식을 취한다. 따라서 기존의 익명화된 데이터를 배포하는 방식에 비해 공격자에 대해 비교적 강한 가정을 하여도 안전한 것으로 여겨지고 있다. 하지만 기존의 차분 프라이버시와 이를 활용한 연구들은 질의의 대상이 되는 속성 간의 연관성을 고려하지 않고 단일 속성의 보호에만 초점이 맞춰져 있다. 따라서 상관관계에 있는 속성으로 인해 원래 보호하고자 했던 민감한 속성의 데이터가 추론될 수 있는 여지를 남기고 있다. 본 논문은 기존의 연구들에서 고려하지 않은 속성간의 상관관계를 이용하여 새로운 프라이버시 침해 위협이 발생할 수 있음을 보이고, 이를 방지하기 위해 상관 속성의 노이즈 파라미터를 설정하는 기법을 제시하고자 한다.

more

초록/요약

Data which is the core values of the information society has become increasingly important these days because of big data. With the development of data analysis techniques, the possibility of privacy infringement, such as leakage problem of sensitive data and identification problem of personal is also increasing. Differential privacy for solving these problem is the first study to attempt to model the concept of privacy mathematically on the statistical database. It is presented to improve the trade-off between accuracy and privacy protection, and now became the de facto standard for privacy protection researches. Differential privacy does not distribute the raw data to the public. But it provides only statistical query results about population so as not to know the contribution of specific individuals. Therefore, as compared with the method of distributing the anonymized data, it is considered to be safe in spite of relatively strong assumptions about attacker. However, researches using conventional differential privacy, without considering the statistical correlation between the attributes, has focused on the protection of the single attribute. So there is the possibility of inferring the sensitive data because of the correlated attributes. In this thesis, we investigate the threat of breach of privacy due to the exposure of sensitive attributes in the differential privacy because of correlation between attributes. And we suggest a novel noise parameter setting technique of correlated attribute to get over limitation.

more