검색 상세

트위터 분석에서 중립극성 감소를 위한 감성사전 구축 및 감성강도 적용

Twitter neutral polarity in the analysis to reduce the development of Sensitivity dictionary and the application of Intensity of Sensitivity

초록/요약 도움말

2013년 5월 초반은 “남양유업 사건”으로 SNS는 뜨겁게 달구어지고, 급기야 남양유업 임직원의 대국민 사과 및 후속 조치 등에 대한 내용을 담은 뉴스들이 매시간 방송 되었다. 사건의 전후, 진위 여부를 떠나 이처럼 빠른 시간 안에 사건에 대하여 정부를 움직이고 임직원들의 대국민 사과를 받아 내는 결과를 가져 왔는지에 대해서, 소셜 네트워크의 정보 확산에 대한 위력과 사회 전반에 걸쳐 어떤 영향력을 행사 하는지를 알 수 있는 사건이다. 최근까지 이러한 SNS 정보에 대한 많은 연구가 활발하게 진행되고 대량의 데이터를 효과적으로 분석하려는 플랫폼의 연구도 진행 중에 있다. 하지만 비정형의 발생하는 SNS 정보를 단순히 수량이나 다량으로 언급된 단어 만으로 사용자의 의견 방향을 추적하거나 분석하는 데는 한계가 존재한다. 또한, 사용자의 대상 타켓에 대한 감성이 긍정/부정적 측면에서 어떤 감성적 작용이 일어나고 있는지는 한국어 언어의 특성상 분석이 용이하지 못하다는 문제가 항시 존재 하였다. 기존 트위터 분석방법에서는 사용자가 작성한 맨션을 형태소 분석 후 극성을 판별하는 기본적인 방법을 사용하였으나, 대부분의 연구가 통계 확률적 극성 산출 방식을 적용하여 트위터 분석에서는 유효한 분석 결과를 얻기가 어려운 실정이다. 이 때문에, 단어/어휘 정량적 분석, 문장의 감성 판별, 감성 극성 강도 적용 등이 고려된 다양한 기술연구가 시도 되고 있다. 본 논문에서는 문서 감성분석 기법을 활용하여 트위터 텍스트의 기본적인 극성분석과 분석의 유효성을 떨어뜨리는 중립극성의 감소 방법을 제시하고자 하였다. 이를 위한 감성사전의 구축방법과 정량적 극성 산출에서 보다 세밀한 분석을 위하여 감성강도가 적용된 감성 수치화 및 알고리즘을 제안 하고자 한다. 특히, 시각화 분석 기반의 적용을 위하여, 하둡 기반의 빅데이터 분석 시스템을 활용하여 비정형 트위터 정보에 대한 감성분석 시스템 구성 방법까지 제안 하였다. 감성극성의 중립 감소를 위한 감성사전 구축 및 감성강도 적용 방법은 복잡한 한국어 트위터 문서의 트윗 유저감성분석을 보다 유효한 결과로 도출 할 수 있는 시스템 연구에 활용 할 수 있을 것으로 판단한다.

more

초록/요약 도움말

Social Networking Services and all major mass media were heated when the news regarding “Namyang Scandal” which clearly showed predatory behavior of conglomerates that eventually led to apology to the public from the management went viral in the early May of 2013. This case clearly showed the power of the overwhelmingly prompt dissemination of information through social networking services (here in after referred to as SNS) and how it could influence the society at large since it enabled the government to take measures and eventually led the board members to apologize to the public. Therefore, researches are actively being done on SNS information as well as efforts are being made to effectively analyze bulk information lately. However, there still exist limits on tracking or analyzing users’ opinions based on SNS information which only were randomly created based on simple numbers or mentioned words. Also, Korean language itself always has the problem in analyzing what is really happening in both positive and negative sensitivity intensity on users’ specific targets. Traditional method of tweeter analysis used basic analyzing tactics of distinguishing polarity after understanding morpheme of the mentions written by users. However, most of the researches have been experiencing difficulties in significant annalistic results by statistic stochastic way in tweeter analysis. Therefore, diverse technical studies have been tried in consideration of quantitative analysis of words and vocabulary, differentiating the sensitive of sentences and intensity of polarity of sensitivity. This study presents the basic method of polarity analysis and also suggests the method that can reduce neutral polarity that reduces the effectiveness of analysis by applying the method of analysis of sensitivity on documentation. Thus, the researcher suggests quantification of sensitivity and algorithm that were applied by the sensitivity of intensity for more detailed analysis in establishing sensitivity dictionary and producing quantitative polarity calculation. In particular, the research suggests the formation of sensitivity analysis system with the application of Big Data based on Hadoop for the application of visualization analysis. The development of sensitivity dictionary to the reduce the polarity of sensitivity and the application of the intensity of sensitivity is considered to be utilized in system research that would produce more effective result in analyzing Korean tweeter users’ sensitivity written in complicated language of Korean.

more