신흥 기술(Emerging Technology) 키워드 탐지를 위한 군집 대표성과 성장 지표 활용
Usage of Cluster Representativeness and Growth Metrics for Detecting Emerging Technology Keywords
- 주제어 (키워드) 신흥 기술 탐지 , 급부상 기술 탐지 , 시계열 TF-IDF
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2024
- 학위수여년월 2024. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 데이터사이언스 · 인공지능
- 실제URI http://www.dcollection.net/handler/sogang/000000077004
- UCI I804:11029-000000077004
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권 보호를 받습니다.
초록
The field of science and technology is rapidly evolving, leading to innovative changes across various industries. Information technology, artificial intelligence (AI), big data, the Internet of Things, and various other technologies interact to create new business models and services. Consequently, in the dynamically changing technological landscape, national institutions and industries continuously conduct research on emerging technologies to understand the latest trends and formulate responsive strategies. However, as science and technology evolve at a rapid pace, the diversity of technological fields expands, and as the amount of data increases, physical limitations arise in conducting research with limited time and personnel. Especially in the case of papers, there is the difficulty of reading a large amount of text. In this paper, we propose a method to derive keywords for emerging technologies using cluster representativeness and growth metrics so that experts can effectively detect technological changes through analysis of large amounts of paper data. It was confirmed that the use of t-TF-IDF and BERTopic, which reflect time series characteristics, is effective in improving keyword derivation for emerging technologies.
more초록
과학 기술 분야는 빠른 속도로 진화하고 있으며, 이로 인해 다양한 산업 분야 에서 혁신적인 변화가 일어나고 있다. 정보 기술, 인공 지능(AI), 빅데이터, 사물 인터넷 및 기타 다양한 기술들이 상호 작용하며 새로운 비즈니스 모델과 서비스를 창출하고 있다. 이에 따라 급변하는 기술 환경에서 국가 기관과 산업체들은 최신 기술 동향을 파악하고 대응 전략을 수립하기 위해 신흥 기술 또는 급부상 기술(Emerging Technology)에 대한 리서치를 지속적으로 수행하고 있다. 하지만, 과학 기술이 빠른 속도로 진화하는 만큼 기술 분야의 다양성은 확대되고, 데이터의 양이 증가함에 따라 제한된 시간과 인원으로 리서치를 수행하는 데 물리적 한계가 발생하고 있다. 특히 논문의 경우, 방대한 양의 텍스트를 읽어야하는 어려움이 존재한다. 본 논문에서는 대량의 논문 텍스트 분석을 통해 전문가가 기술의 변화를 효과적으로 감지할 수 있도록, 군집 대표성과 성장 지표를 활용한 신흥 기술 또는 급부상 기술에 대한 키워드 도출 방법을 제안한다. 시계열 특성을 반영한 t- TF-IDF와 BERTopic의 활용이 신흥 기술 또는 급부상 기술(Emerging Technology)에 대한 키워드 도출 향상에 효과가 있음을 확인하였다.
more목차
제 1 장 서론 1
제 1 절 연구 배경 및 목적 1
제 2 절 연구 내용 3
제 3 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 데이터 분석을 활용한 기술 탐지 동향 4
제 2 절 TF-IDF 6
제 3 절 DoV 7
제 4 절 HDBSCAN 9
제 5 절 BERTopic 12
제 6 절 Hype Cycle 15
제 3 장 신흥 기술 탐지를 위한 제안 방법 18
제 1 절 키워드 후보군 도출 18
제 2 절 신흥 기술 키워드 탐지 21
제 4 장 실험 및 평가 22
제 1 절 데이터 및 전처리 24
제 2 절 신규급성장 키워드 도출 성능 확인 25
제 3 절 키워드 후보군 도출 28
제 4 절 신흥 기술 키워드 탐지 33
제 5 절 실험 결과 34
제 5 장 결론 39
참고 문헌 40