검색 상세

토픽모델링 기반 뉴스레터 데이터 분석 파이프라인 기법 연구

Designing a Pipeline Mechanism for Topic Modeling-Based Newsletter Data Analysis

초록 (요약문)

본 연구는 뉴스레터라는 특수 도메인 데이터를 처리하는 최적의 토픽모델링 파이프라인 구축을 목표로 한다. 뉴스레터는 텍스트와 이미지가 혼합된 자료형으로 적절한 토픽 추출을 위해서는 멀티모달 토픽모델링이 필요하다. 본 연구에서는 텍스트와 이미지를 처리하는 파이프라인을 각기 다르게 구성하여 최종 도출된 토픽의 품질을 비교 평가한다. 파이프라인은 ① 텍스트 토픽모델링 ② 텍스트 증강 토픽모델링 ③ 멀티모달 토픽모델링의 세 가지 방식으로 구성하였다. ① 텍스트 토픽모델링에서는 뉴스레터의 텍스트 부분만을 활용한다. ② 텍스트 증강 토픽모델링은 뉴스레터의 텍스트와 이미지를 모두 활용하되, 이미지 정보를 텍스트화하는 방식으로 접근하였다. 뉴스레터 이미지에 캡셔닝과 OCR을 적용하여 의미 정보를 추출, 텍스트로 변환한 후 토픽모델링을 수행하였다. 마지막으로 ③ 멀티모달 토픽모델링에서는 이미지와 텍스트를 모두 처리할 수 있는 멀티모달 임베딩 모델을 사용하여 멀티모달 토픽모델링을 수행하였다. 구축한 파이프라인의 성능 비교를 위해 NPMI 유사도, C_V 유사도 그리고 토 픽 다양성 총 세 가지 토픽 품질 평가지표를 활용하였다. 실험 결과, 가장 최적의 토픽모델 파이프라인은 텍스트, 이미지 임베딩의 가중치를 적절히 조합한 멀티모달 토픽모델 파이프라인이었다. 특히 멀티모달 토픽모델링이 항상 최적의 성능을 담보하지 않으며, 임베딩 가중치가 적절하지 않으면 다른 파이프라인보다 성능이 크게 저하될 수 있음을 확인했다. 또 한 이미지로부터 추출된 의미 정보를 원문에 과도하게 반영하는 경우 원 텍스트의 의미적 맥락을 소실시켜 토픽 품질을 저해할 수 있음을 확인하였다.

more

목차

제 1 장 서론1
1.1 연구의 배경 및 필요성1
1.2 연구 범위 및 구성 3
1.3 본 연구의 기여4
제 2 장 관련 연구 7
2.1 뉴스 데이터 활용 토픽모델링7
2.2 멀티모달 토픽모델링 9
제 3 장 제안 방법15
3.1 멀티모달 임베딩15
3.2 이미지 캡셔닝 및 OCR 기반 텍스트 확장18
3.3 BERTopic 기반 토픽모델링 20
3.4 토픽 품질 평가23
제 4 장 연구 실험 및 결과 26
4.1 실험 환경26
4.2 데이터 수집 및 전처리 27
4.3 토픽모델링 파이프라인 구축29
4.3.1 토픽모델 파라미터 최적화 29
4.3.2 텍스트 토픽모델링31
4.3.3 텍스트 증강 토픽모델링32
4.3.4 멀티모달 토픽모델링33
4.4 실험 결과 34
제 5 장 결론 및 제언 47
참고문헌48

more