휴먼 랜드마크 이미지 및 조건부 GAN을 이용한 수어 화자 비식별화 방법
A Sign Language Speaker De-identification Method Using Human Landmark Images and Conditional GAN
- 주제어 (키워드) 수어 화자 비식별화 , 휴먼 랜드마크 , 조건부 GAN , U-Net , PatchGAN , Sign language de-identification , Human landmark , Conditional GAN , U-Net
- 발행기관 서강대학교 일반대학원
- 지도교수 낭종호
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 인공지능학과협동과정
- 실제 URI http://www.dcollection.net/handler/sogang/000000082065
- UCI I804:11029-000000082065
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 비대면 서비스의 확산으로 수어 영상의 활용이 증가함에 따라, 화자의 얼 굴 및 옷차림 등 신원 정보 노출에 따른 개인정보 침해 우려가 제기되고 있다. 기 존의 비식별화 기법은 식별 요소를 완전히 제거하지 못하거나 수어 표현을 훼손하 며, 실시간 처리에도 한계를 보인다. 본 논문에서는 수어 표현을 보존하면서 신원 식별 요소를 효과적으로 제거할 수 있는 조건부 생성적 적대 신경망(Conditional GAN) 기반의 실시간 수어 화자 비식별화 기법을 제안한다. 네트워크의 입력 데이 터로 사용되는 휴먼 랜드마크에 대해 세 가지 색상 표현과 얼굴·손 크기 조정을 조 합하여 최적의 인코딩 방식을 탐색하였다. 생성기로는 경량의 4단계 Attention U- Net, 판별기로는 다중 해상도 기반 Multi-scale PatchGAN을 적용하여, 이미지 간 변화 성능은 유지하면서도 네트워크의 경량화를 달성하였다. 또한, 수어 표현 정보를 보다 정밀하게 보존하기 위해 총 6개의 복합 손실 함수를 설계하였다. 실 험 결과, 컬러 표현과 원본 크기를 유지한 입력 방식이 가장 우수한 성능을 보였으 며, 연속 수어 인식(CSLR) 모델 기반 평가에서 원본 대비 인식률 저하를 9.4%로 억제하였다. FID 및 KID 지표에서도 이미지 품질의 우수성이 입증되었고, 초당 200프레임 이상의 처리 속도를 통해 실시간 처리 가능성도 확인되었다. 본 연구 는 개인정보 보호와 표현 보존을 동시에 달성하는 실시간 수어 비식별화 기술을 제안하였으며, 본 기술은 고품질 비대면 수어 서비스의 구현과 사회적 수요 충족 에 실질적인 기여를 할 수 있을 것으로 기대된다. 주제어: 수어 화자 비식별화, 휴먼 랜드마크, 조건부 GAN, U-Net, PatchGAN
more초록 (요약문)
With the recent expansion of contactless services, the use of sign language videos has significantly increased. However, the exposure of personally identifiable information such as the signer’s face and clothing has raised privacy concerns. Existing de-identification techniques often fail to completely remove identifying features, distort sign language expressions, or lack real-time processing capabilities. This paper proposes a real-time signer de-identification method based on an optimized Conditional Generative Adversarial Network (Conditional GAN) that effectively removes identifying features while preserving sign language expressions. To optimize the input representation, we explore combinations of three color encoding schemes and size adjustments for the face and hands based on human landmark data. The generator is a lightweight 4-stage Attention U-Net, and the discriminator is a multi-resolution Multi-scale PatchGAN, enabling both network efficiency and temporal consistency across frames. Additionally, six composite loss functions are designed to better preserve the fine-grained semantic information in sign language. Experimental results show that using color-encoded inputs with preserved original size achieves the best performance. In evaluations using a Continuous Sign Language Recognition (CSLR) model, the recognition accuracy dropped by only 9.4% compared to the original video. The proposed method also demonstrates strong visual quality based on FID and KID scores and achieves a processing speed of over 200 frames per second, verifying its real-time applicability. This study presents a practical and effective approach to real-time sign language de-identification, contributing to both privacy protection and the preservation of expression. It is expected to support the implementation of high-quality contactless sign language services and meet growing societal demands. Keywords: Sign language de-identification, human landmark, Conditional GAN, U-Net
more목차
1. 서론 1
2. 관련 연구 4
2.1 수어 구성 요소와 일반 비식별화 연구의 한계 4
2.2 수어 화자 비식별화 연구 5
2.3 조건부 GAN 기반 이미지 생성 네트워크 7
3. 휴먼 랜드마크 이미지 및 조건부 GAN 기반 수어 화자 비식별화 시스템 10
3.1 전체 시스템 개요 10
3.2 휴먼 랜드마크 이미지 생성 12
3.2.1 휴먼 랜드마크 이미지 생성 과정 14
3.2.2 휴먼 랜드마크 인코딩 방식 16
3.3 조건부 GAN 최적화를 통한 수어 화자 비식별화 이미지 학습·생성 ·· 18
3.3.1 Attention U-Net 생성기 20
3.3.2 다중 스케일 PatchGAN 판별기 21
3.3.3 다중 손실 함수 구성 22
4. 실험 및 분석 26
4.1 실험 환경 및 데이터셋 26
4.1.1 실험 환경 26
4.1.2 데이터셋 26
4.2 평가 방법 및 지표 29
4.2.1 화자 신원 식별 제거 및 품질 정성적 평가 29
4.2.2 CSLR 기반 수어 인식률 평가 29
4.2.3 FID/ KID 영상 품질 평가 32
4.3 실험 방법 33
4.3.1 휴먼 랜드마크 인코딩 방식 33
4.3.2 모델 학습 및 비교 모델 선택 34
4.4 실험 결과 및 분석 36
4.4.1 비식별화 완전성 36
4.4.2 수어 내용 보존도 38
4.4.3 영상 품질 40
4.4.4 종합 성능 비교 41
5. 결론 42
5.1 연구 요약 및 기여 42
5.2 한계점 및 향후 연구 43

