검색 상세

중국 정사(正史) 속 '국가(國家)'의 의미와 용례 분석 : Word2Vec과 Doc2Vec을 통한 텍스트 마이닝을 중심으로

Analysis of the Meaning and Use of '國家' in Twenty-four Histories : Through Text mining using Word2Vec and Doc2Vec

초록 (요약문)

오늘날 ‘國家’라는 단어는 한국, 중국 그리고 일본에서 서구의 정치적 개념인 Country, Nation, State에 대한 번역어로 흔히 사용된다. 국가는 19세기에 이르러 번역어로서 본격적으로 사용되었지만, 이미 동아시아 전역에서 오랜 시간에 걸쳐 다양한 의미로 널리 사용되었다. 그러나 전근대 시기 내내 중첩된‘국가’의 의미와 그 이력을 일일이 추적하여 종합적으로 분석한 연구는 찾아보기 어렵다. 아마도 방대한 문헌 속에 등장하는‘국가’ 용례의 양이 많아서, 연구자가 직접 문헌을 하나씩 확인해야 하는 기존의 연구 방법으로는 부분적인 접근만이 가능했을 것이다. 한편 2010년대에 디지털 데이터가 급증함과 더불어 이르러 대량의 텍스트를 실시간으로 빠르게 분석하여 그 속에 담긴 의미를 찾는 자연언어처리 기술이 급격하게 발전하기 시작했다. 또한 그보다 앞서 아날로그 데이터를 디지털 데이터로 바꾸는 소위 ‘1차적 디지털 인문학’ 역시 계속 진행되어 다양한 디지털 아카이브가 구축되었다. 이러한 환경은 과거에는 시도할 수 없었던 대량의 문헌에 대한 총체적 분석을 가능하게 해주었고, 이는 곧 전통시대‘국가’ 개념에 대한 기존 연구가 가지고 있던 한계를 극복할 수 있음을 뜻했다. 이에 디지털 아카이브로부터 추출한 중국의 정사인 24사를 바탕으로, 자연언어처리 기법인 Word2Vec과 Doc2Vec을 적용하여 國家의 의미와 용례를 살펴보았다. Word2Vec의 적용을 통해 추출한 연관어들을 통해 앞선 연구들에서 제시되었던 최고 통치자, 최고 통치자의 일가, 통치 조직, 통치 영역, 제후국이라는 ‘국가’의 의미를 다시 확인할 수 있었다. 그리고 더 나아가 정치 공동체와 백성이라는 새로운 의미를 찾아냄에 따라 번역어로서 사용되기 이전의 ‘국가’에는 일곱 가지의 의미가 있었음을 밝혀냈다. 이어서 24사의 國家가 들어간 문장들을 바탕으로 Doc2Vec을 적용하여 문장끼리의 비교를 진행한 후, 그 중에서 다른 문장들과의 유사성이 높아 널리 통용되는 용례라고 볼 수 있는 문장들을 추출했다. 이때 하나의 의미가 지니는 여러 측면을 최대한 많이 살펴보기 위해 해당하는 문장이 가장 많았던 통치 조직과 정치 공동체의 용례에 집중했다. 여기서 통치 조직과 관련해서는 통치 조직의 구성원, 법과 제도, 정책, 제사, 전쟁과 관련된 용례가 대거 등장했다. 정치 공동체의 경우에는 통치 영역과 통치 대상을 아우르는 단일한 통치 단위와 왕조, 그리고 외부 공동체에 대비되어 중국이라 볼 수 있는 내부 공동체라는 의미로 용례들을 정리해볼 수 있었다. 이를 통해 전통시대 중국에서 國家가 가진 역사적 의미를 확인했고, 세부적으로는 각 의미와 관련된 용례들을 살펴보았다. 이 과정에서 각 의미와 연관된 하위 차원의 의미도 도출했다. 그리고 이들을 종합하여 오늘날 國家가 지니는 다의성이 그 이전부터 國家가 가지고 있었던 의미들로부터 유래되었을 가능성도 있다는 것을 알 수 있었다. 뿐만 아니라 이른바 디지털 역사학의 효용성을 입증했다. 즉, 자연언어처리 기술을 역사학 연구에 적극 활용하여 이러한 연구 방법이 역사를 조망하고 일정한 역사적 의미를 도출하는 데 도움이 될 수 있음을 보였다. 특히 Word2Vec과 Doc2Vec의 적용과 활용에 관한 상세한 설명을 통해 다른 연구에서 이러한 분석 기술을 활용할 수 있도록 하여 디지털 인문학의 중요한 목표 중 하나인 공유의 정신을 실현하였다.


초록 (요약문)

Today, the word '國家(Guo-jia)' is commonly used in Korea, China, and Japan as a translating word for the Western political concepts of Country, Nation, and State. The 國家 has already been widely used in various meanings throughout East Asia over a long period of time. However, it is difficult to find a study that comprehensively analyzed by tracking the meaning and history of the 國家 overlapped throughout the pre-modern period. Perhaps because of the large amount of examples of 國家 appearing in the vast literature, only a partial approach was possible with the existing research method in which researchers had to check the literature one by one. Meanwhile, in recent years, natural language processing technology has developed rapidly. In addition, even before that, the digital humanities that converts analog data into digital data continued to be carried out. This environment enabled a holistic analysis of large volumes of literature that could not be attempted in the past, which meant that it could overcome the limitations of research on the meaning of the 國家 in the past. Accordingly, based on the Twenty-four Histories (24史) extracted from digital archives, the meaning and usage of the 國家 were examined by applying Word2Vec and Doc2Vec. First of all, through the similar words extracted from Word2Vec, it was possible to reconfirm the meaning of the 國家 as the supreme ruler, the family of the supreme ruler, the governing organization, the territory of governance, and the vassal states (fengjina states) presented in previous studies. Furthermore, by finding new meanings of political communities and ruled people, it was revealed that there were total of seven meanings in the 國家. Subsequently, Doc2Vec was applied to compare sentences between sentences and extract sentences with high generality based on similarity. In order to examine as various aspects of one meaning as possible, this study focused on the examples of governing organizations and political communities that contain most of the corresponding sentences. Regarding the governing organization, a large number of examples related to members of the governing organization, laws and institutions, policies, rituals, and wars appeared. In the case of a political community, its usage can be summarized as examples of a single governing unit that encompasses the area of governance and the subject of governance, dynasty, and an internal political community in contrast to external political communities. Through this, the historical meaning of the 國家 in traditional China was confirmed. Also, each meaning or related use was examined and a more detailed meaning was derived. On the other hand, by utilizing natural language processing technology in historical research, it has been demonstrated that this research method can help to derive certain historical meanings. Moreover, through detailed explanations of the application and utilization of Word2Vec and Doc2Vec, this study realized the spirit of sharing, one of the important goals of digital humanities, by allowing these analysis technologies to be used in other studies.
