코로나19 시대의 건강과 운동에 대한 인식 빅데이터 분석
Big Data Analysis on Health and Exercise Awareness in the COVID-19 Era
- 주제(키워드) 코로나19 , 건강 , 운동 , 인식 , 빅데이터 , 텍스트마이닝 , 사회 연결망 분석 , COVID-19 , Health , Exercise , Awareness , Big Data , Textmining , Social Network Analysis
- 발행기관 서강대학교 교육대학원
- 지도교수 안현균
- 발행년도 2021
- 학위수여년월 2021. 8
- 학위명 석사
- 학과 및 전공 교육대학원 체육교육
- UCI I804:11029-000000066169
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
본 연구는 빅데이터를 이용하여 ‘건강’과‘운동’에 관련한 키워드를 분석한 후 신종코로나바이러스감염증-19(COVID-19)에 지배되었던 2020년의 ‘건강’과‘운동’이라는 키워드와 연관되는 키워드를 찾고, 그 키워드들이 사람들에게 어떻게 인식되는지 분석하고자 했다. 현재까지 많은 연구자들은 연구를 진행하기 위해 설문조사를 사용했다. 하지만 설문조사는 시간과 비용의 문제, 연구 참여자의 한계, 통계 오류 등의 문제를 초래할 수 있다. 따라서 본 연구는 설문조사의 문제점을 대안으로 빅데이터 분석 방법을 이용하여 연구하고자 했다. 분석 도구로는 ㈜더아이엠씨에서 만든 텍스톰(TEXTOM)이라는 빅데이터 분석 솔루션으로 분석을 실시했다. 분석 채널은 대한민국에서 가장 많이 이용되고 보편화 되어있는 포털사이트인 네이버, 다음, 구글을 분석 대상으로 선정하였다. 각각의 포털사이트에서 2020년 1월 1일부터 2020년 12월 31일까지 건강과 운동 키워드가 포함된 데이터를 수집했다. 수집된 데이터를 이용하여 단어빈도분석, TF-IDF 분석, N-gram 분석, 네트워크분석, 감성분석을 실시했다. 위와 같은 연구방법과 분석을 거쳐 다음과 같은 결론을 도출했다. 첫째, 본 연구에서 분석한 데이터의 수는 총 11,099건이며, 용량은 5,389KB로 나타났다. 또한 텍스트마이닝 기법을 통해 단어빈도분석을 실시한 결과, 건강과 운동 키워드와 함께 건강보험, 국민건강보험공단, 건강검진, 건강보험료, 다이어트, 상담, 시작, 코로나, 집, 몸 등의 순으로 나타났으며, TF-IDF 분석을 실시한 결과, 건강보험, 국민건강보험공단, 건강검진, 건강보혐료, 다이어트, 상담, 근력운동, 시작, 코로나 등의 순으로 나타났다. 또한 N-gram 분석을 실시한 결과, 유산소-운동, 다이어트-운동, 운동-동참, 운동-시작, 운동-추천, 근력-운동, 운동-후, 집-운동, 건강-다이어트, 운동-효과 등의 순으로 나타났다. 둘째, 사회 연결망 분석 중 네트워크 분석(CONCOR분석)을 실시한 결과, 운동효과 그룹, 건강관리 그룹, 건강보험 그룹, 의료 그룹 총 4개의 군집으로 형성된 것을 확인할 수 있었다. 또한 감성분석을 실시한 결과, 문서기반 감성분석에서 총 10,481건의 문서 중 322건(3.07%)의 긍정문서, 10,159건(96.93%)의 중립문서, 0건(0%)의 부정문서가 나타났고, 감성사전기반 감성분석을 실시한 결과, 7,215건(64.77%)의 긍정단어빈도와, 3,924건(35.23%)의 부정단어빈도가 나타난 것을 확인할 수 있었다. 이상을 종합하여 볼 때 본 연구는 전세계가 코로나19에 지배되었던 2020년 건강과 운동에 대한 구체적인 빅데이터 자료를 제공할 수 있었다.
more초록/요약
This study analyzes keywords related to 'health' and 'exercise' using big data. It sought to find keywords related to the keywords "health" and "exercise" in 2020, which were dominated by the coronavirus disease-19 (COVID-19), and analyze how the keywords were perceived by people. So far, many researchers have used surveys to conduct research. However, surveys can lead to problems such as time and cost, limitations of study participants, and statistical errors. Therefore, this study was intended to study by using the big data analysis method to supplement the problems of the survey. As an analysis tool, it conducted analysis with a big data analysis solution called TEXTOM made by The IMC. Analysis Channel selected Naver, Daum, and Google, the most commonly used and common portal sites in South Korea, as analysis targets. Data containing health and exercise keywords were collected from January 1, 2020 to December 31, 2020. We conducted word frequency analysis, TF-IDF analysis, N-gram analysis, network analysis, and emotional analysis using collected data. Through the above research methods and analysis, the following conclusions were drawn. First, the total number of data analyzed in this study is 11,099 and the capacity is 5,389 KB. Furthermore, the results of word frequency analysis through text mining techniques, Along with the keywords for health and exercise, it was shown in the order of health insurance, National Health Insurance Corporation, health checkups, health insurance premiums, diet, counseling, start, corona, home, body, etc. According to the tf-idf analysis, Health insurance, National Health Insurance Corporation, health checkups, health insurance premiums, diet, counseling, strength training, start, corona, etc. Also, as a result of the n-gram analysis, Cardio-exercise, diet-exercise, exercise-participation, exercise-starting, exercise-recommendation, muscle strength-exercise, post-exercise, home-exercise, health-diet, exercise-effect, etc. Second, the results of network analysis (CONCOR analysis) during social network analysis. A total of four groups were identified: the Exercise Effect Group, the Health Care Group, the Health Insurance Group, and the Medical Group. And as a result of the emotional analysis, Document-based emotional analysis showed 322 positive documents (3.07%) out of 10,481 documents, 10,159 (96.93%) neutral documents, and 0 (0%) negative documents. As a result of conducting an emotional analysis based on the emotional dictionary, It was confirmed that 7,215 cases (64.77%) were positive word frequency, and 3,924 cases (35.23%) were negative word frequency. Taken together, this study was able to provide concrete big data on health and exercise in 2020 when the world was dominated by COVID-19.
more