CNN-LSTM 기반 전자정부 사이트 게시글 내용분류에 관한 연구
A Study on Categorization of System Web Article Based on CNN-LSTM for an Electronic Government
- 주제(키워드) cnn , lstm , wpm , 내용분류 , 복합모델
- 발행기관 서강대학교 정보통신대학원
- 지도교수 구명완
- 발행년도 2017
- 학위수여년월 2017. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 정보보호
- 실제URI http://www.dcollection.net/handler/sogang/000000062190
- 본문언어 한국어
- 저작권 서강대학교 논문은 저작권보호를 받습니다.
초록/요약
국민 행복 맞춤형 서비스 모니터 활동단은 전자 정부 서비스에는 국민들이 느끼는 불편한 점과 개선 및 아이디어를 게시글 형태로 수집하여 분류하는 작업을 수행한다. 본 논문에서는 172개 전자정부 사이트 (정보 제공형 웹사이트 95개 , 정부 대표 홈페이지 43개 ,민원 처리형 웹사이트 31개, 국민 참여형 웹사이트 3개)에서 사용자들이 게시판을 통해 작성한 불편한점(9,303개) 개선/아이디어(9,040개) 게시글을 수집 하여 3개 항목(서비스 ,정보 ,시스템)으로 자동 분류 한다. 게시글은 비격식(informal) 문서로서 구성되며 격식(formal) 문서에 비해 작성자 마다 작성 방식이 달라 일관된 규칙이나 패턴을 찾는 과정이 상대적으로 복잡하다. 본 연구에서는 게시글 들을 분석하기 위해 자동 띄어 쓰기 수행하고, 한국어 기본 유닛 단위로 WPM(Word Piece Model)을 활용하여 게시글 들에 대한 분석을 수행하였다. 자동 띄어쓰기 교정기 시스템 을 적용하여 문서를 정제 한 후, WPM을 적용하여 유닛을 생성하고 Word2Vec 알고리즘으로 게시글의 벡터(Vector)표현을 수행 하였다. 성능 실험에서는 CNN (Convolutional Neural Network) 모델 , LSTM(Long Short Term Memory) 모델 및 CNN-LSTM 복합모델을 사용하여 분류의 정확률을 측정한 후에 상호 비교 분석하였다. 그 결과 CNN-LSTM 복합 모델 분류기를 사용시 73.7%로 가장 우수하였고, LSTM 모델 69.7% ,CNN 모델은 68.6% 의 결과를 얻었다.
more