단절된 Pyramidal Time Frame적용을 통한 데이터 스트림 클러스터링의 성능개선 연구
Quality Improvement Study on Streaming Data Clustering by Adopting Cut-off Pyramidal Time Frame Method
- 주제어 (키워드) 클러스터링 , 온라인학습 , 온라안클러스터링
- 발행기관 서강대학교 정보통신대학원
- 지도교수 김세준
- 발행년도 2023
- 학위수여년월 2023. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제 URI http://www.dcollection.net/handler/sogang/000000070122
- UCI I804:11029-000000070122
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록 (요약문)
최근 5G 기술의 발전과 더불어 스마트폰 기기와 센서 데이터로부터 발생하는 실시간 스트리밍 데이터는 폭발적으로 증가하고 있다. 배치 학습으로는 실시간 데이터의 처리 수요를 감당할 수 없음에 따라 비지도 학습 분야인 클러스터링에서도 스트림 데이터에 대한 연구가 많이 이루어지고 있다. 하지만 대규모 스트림 데이터 특성상 모든 데이터는 저장될 수 없으며 메모리가 절감될수록 클러스터링의 품질은 악화되는 trade-off 관계는 필연적이다. 특히, 학습기간이 장기화될수록 최신과 과거 데이터 사이의 가중치를 조정하는 문제 즉, forgetting mechanism은 스트림 데이터 클러스터링 분야에서 필수적이다. CluStream 알고리즘은 계층적 클러스터링인 BIRCH 기반으로 온라인 클러스터링을 누적적으로 수행함에 따라 장기화에 따른 성능 악화 문제가 두드러진다. 이에 본 연구에서는 CluStream알고리즘의 약점을 극복하기 위해서 Tilted window인 Pyramidal Time Frame을 변형하여 성능 개선에 관한 연구를 하였다. 즉, 온라인 클러스터링을 지속 누적하지 않고 Pyramidal Time Frame의 각 level에서 단절시켜 새로운 마이크로 클러스터링의 집단을 만들었고, 그 결과 클러스터링의 성능은 향상되었다. 하지만 소요시간도 크게 증가하였다. 따라서 제안된 방식은 리얼 타임(real-time) 환경에서는 적용이 어려우며 소요시간의 희생을 어느정도 용인할 수 있는 환경에서 사용되는 것이 적합할 것이다.
more초록 (요약문)
Recently, large volume of streaming data is generated due to 5G technology and growing mobile devices and IoT sensors. Massive real-time data is not processable by batch learning, so there are many studies about online clustering, unsupervised learning. However, Storage capacity limits the amount of data to be stored. In general, trade-off relationship between memory usage and clustering quality is inevitable. So, efficient forgetting mechanism is necessary in extended online learning process. Especially CluStream algorithm inherits a weakpoint of agglomerative clustering(BIRCH) and is exposed to the problem of degrading clustering quality of longer period. So, in this thesis new method of applying tilted time window(Pyramidal Time Frame) will be proposed to overcome this issue. That is, instead of cumulating micro clustering in every time frame level, cutting off method of micro cluster information in each level of time frame is used. Result is promising in one hand and disappointing in another, quality is improved but the CPU time is also increased. Proposed method can only be used in environment where urgent realtime clustering is not required.
more