s-uniformity : 데이터의 민감도를 고려하여 고른 분포를 보장하는 익명화 기법
An Anonymization Technique with Preserving Uniform Distribution by Considering Sensitivity
- 주제(키워드) 익명화 , 프라이버시 , 민감도
- 발행기관 서강대학교 일반대학원
- 지도교수 박석
- 발행년도 2009
- 학위수여년월 2009. 2
- 학위명 석사
- 실제URI http://www.dcollection.net/handler/sogang/000000044911
- 본문언어 한국어
초록/요약
최근 연구나 통계 분석 등 다양한 목적으로 개인의 데이터를 공개적으로 배포하는 경우가 증가하고 있다. 그런데 만약 개인의 민감한 정보가 포함된 데이터가 그대로 공개된다면 프라이버시를 침해할 수 있다. 이에 대해 데이터 소유자가 이름이나 주민등록 번호와 같이 명시적인 개인 신원 정보를 암호화하거나 삭제한 후 배포하는 탈 식별화 방법이 제시되었지만, 외부 데이터와의 추론 공격 가능성이 제기되었다. 이를 방지하기 위해 k-anonymity 기법을 시작으로 익명화 기법이 연구되고 있지만, 기존의 연구들은 대상 환경만을 고려한 한계점이 있고, 민감한 정보들이 몰리거나 배포 데이터 간의 비교로 추가적인 추론 공격에 취약하여 프라이버시를 충분히 보호할 수 없는 문제점이 있다. 본 논문은 기존의 연구에서 고려된 추론 공격의 가능성 범위를 확장하여, 민감한 속성값의 의미적 근접도 기준으로 기존의 분류 체계 상 분포에 민감도 분포를 추가로 고려함으로써 의미적으로 보다 고른 분포를 보장할 수 있다. 또한 동적 환경에서 추론 공격 가능성을 추가로 고려함으로써 프라이버시를 보호한다. 정적, 동적 데이터베이스 환경에 모두 적용 가능하며, 차등화된 민감도 레벨과 민감도 레이블, 임계 값 등을 사용하여 사용자의 환경이나 요구 사항을 시스템에 적용 가능하고 성능 향상 효과를 얻을 수 있다. 본 연구는 기존 기법들의 한계에 대한 대안을 제시하고, 프라이버시를 강화하면서도 성능의 부담이 거의 없는 효율적인 익명화 기법을 제시하고자 한다.
more초록/요약
There are growing cases of publishing individual data for various objectives like the research or statistics analysis and so on. At this point, if data includes personal sensitive information and is published as it is, then personal identities and sensitive information are disclosed together, so it has the possibility which the privacy is infringed. Hereupon it was proposed the de-identification technique which data owner published data after encrypting or deleting the explicit identity information. But there is the possibility of the linking (or reference) attack problems with external data. For protecting this problem, k-anonymity was proposed and various anonymization techniques have studied. But the existing studies have the limit which considered only their environment like static or dynamic database, and can’t preserve the semantic uniform distribution because they don’t consider the sensitivity distribution as the semantic closeness, so there are still the possibilities of the linking attack problems. We propose a novel privacy notion called s-uniformity, which guarantees both the uniform distribution in taxonomy and the sensitive uniform distribution of sensitive information as the semantic closeness, by expanding the range of the linking attack problems. And we preserve privacy by considering the probability of linking attack in dynamic database environment. This technique can be applied to both static and dynamic database environment, and can apply users’ environment or requirements to system using the graded sensitive level, the sensitive label and the threshold values. We suggest a solution for the limits of existing techniques, and propose the efficient anonymization technique which makes an effort to preserve privacy and not to impose a burden to performance.
more목차
1.서론 = 1
2.기본 개념 정리 = 4
2.1 기본 용어 = 4
2.2 k-anonymity 기법 = 6
3.관련 연구 = 8
3.1 익명화 기법 연구의 분류 = 8
3.1.1 배포 및 질의 방식에 따른 분류 = 8
3.1.2 데이터의 변경 고려 여부에 따른 분류 = 9
3.2 익명화 기법 연구의 흐름 = 9
3.2.1 효율적인 그룹화 알고리즘 연구 = 9
3.2.2 추론 공격의 가능성 및 대상 환경의 확장 연구 = 11
3.2.2.1 정적 데이터베이스 환경 기반의 익명화 기법 = 12
3.2.2.2 동적 데이터베이스 환경 기반의 익명화 기법 = 13
3.3 기존의 익명화 기법들의 문제점 = 16
3.3.1 s-유사성 공격(s-Similarity Attack)의 가능성 = 16
3.3.2 식별 노출(identity disclosure)의 가능성 = 18
3.4 기존의 익명화 기법들의 문제점 = 20
4.S-UNIFORMITY: 데이터의 민감도를 고려하여 의미적으로 보다 고른 분포를 보장하는 익명화 기법 = 21
4.1 제안 기법의 개념과 목적 = 21
4.2 제안 기법의 익명화 과정 = 23
4.3 관련 연구와 제안 기법의 개선 사항 = 27
4.3.1 정적 데이터베이스 환경에서의 개선 사항 = 28
4.3.2 동적 데이터베이스 환경에서의 개선 사항 = 29
4.4 제안 기법의 익명화 알고리즘 = 31
4.5 개선 사항 정리 = 34
5.실험 및 분석 = 36
5.1 실험 환경 = 36
5.2 실험 결과 및 분석 = 38
5.2.1 s-유사성 공격(s-Similarity Attack)의 가능성 = 38
5.2.2 수행 시간 = 39
5.2.3 정보 손실 = 41
5.3 요약 및 정리 = 44
6.결론 = 45
참고문헌 = 47
그림 및 표 차례
[그림 1] 추론 공격 중 식별 노출의 예 = 4
[그림 2] 식별 노출과 k-anonymity 기법 = 6
[그림 3] 효율적인 그룹화 알고리즘 연구의 흐름 = 10
[그림 4] 추론 공격 중 속성 노출의 예 = 11
[그림 5] l-diversity 기법 = 12
[그림 6] t-closeness 기법 = 13
[그림 7] 질병 정보의 분류 체계 = 13
[그림 8] 점근 기법 중 데이터가 삽입될 경우 = 14
[그림 9] 점근 기법 중 데이터가 삭제될 경우 = 14
[그림 10] m-invariance 기법 = 15
[그림 11] m-distinct 기법 = 15
[그림 12] s-유사성 공격의 예 (t-closeness 기법) = 17
[그림 13] s-유사성 공격의 예 (m-distinct 기법) = 17
[그림 14] 식별 노출의 예 (점근 기법) = 19
[그림 15] 식별 노출의 예 (m-distinct 기법) = 19
[그림 16] 민감도 기준을 추가한 질병 정보 분류 체계 = 23
[그림 17] 익명화 과정 (t-closeness) = 24
[그림 18] 익명화 과정 (s-uniformity) = 25
[그림 19] 관련 연구와 제안 기법의 개선 사항 = 27
[그림 20] s-유사성 공격의 가능성 방지 = 28
[그림 21] 기반 지식 정보의 구분 = 29
[그림 22] 식별 노출 가능성의 방지 = 30
[그림 23] 데이터의 분포 = 31
[그림 24] 제안 기법의 익명화 과정 = 32
[그림 25] s-유사성 공격의 발견 횟수 (vs. t-closeness) = 38
[그림 26] 수행 시간 (vs. t-closeness) = 40
[그림 27] 수행 시간 (vs. Byun) = 40
[그림 28] 수행 시간 (vs. m-invariance) = 41
[그림 29] 정보 손실 (vs. t-closeness) = 42
[그림 30] DM cost = 42
[그림 31] 정보 손실 (vs. Byun) = 43
[그림 32] IL cost = 43
[표 1] 기존의 익명화 기법들의 문제점 = 20
[표 2] 개선 사항 정리 = 35
[표 3] 실험 데이터의 구조 = 36
[표 4] 추가한 질병의 비율 = 37