검색 상세

CNN-LSTM 기반 전자정부 사이트 게시글 내용분류에 관한 연구

A Study on Categorization of System Web Article Based on CNN-LSTM for an Electronic Government

초록/요약

국민 행복 맞춤형 서비스 모니터 활동단은 전자 정부 서비스에는 국민들이 느끼는 불편한 점과 개선 및 아이디어를 게시글 형태로 수집하여 분류하는 작업을 수행한다. 본 논문에서는 172개 전자정부 사이트 (정보 제공형 웹사이트 95개 , 정부 대표 홈페이지 43개 ,민원 처리형 웹사이트 31개, 국민 참여형 웹사이트 3개)에서 사용자들이 게시판을 통해 작성한 불편한점(9,303개) 개선/아이디어(9,040개) 게시글을 수집 하여 3개 항목(서비스 ,정보 ,시스템)으로 자동 분류 한다. 게시글은 비격식(informal) 문서로서 구성되며 격식(formal) 문서에 비해 작성자 마다 작성 방식이 달라 일관된 규칙이나 패턴을 찾는 과정이 상대적으로 복잡하다. 본 연구에서는 게시글 들을 분석하기 위해 자동 띄어 쓰기 수행하고, 한국어 기본 유닛 단위로 WPM(Word Piece Model)을 활용하여 게시글 들에 대한 분석을 수행하였다. 자동 띄어쓰기 교정기 시스템 을 적용하여 문서를 정제 한 후, WPM을 적용하여 유닛을 생성하고 Word2Vec 알고리즘으로 게시글의 벡터(Vector)표현을 수행 하였다. 성능 실험에서는 CNN (Convolutional Neural Network) 모델 , LSTM(Long Short Term Memory) 모델 및 CNN-LSTM 복합모델을 사용하여 분류의 정확률을 측정한 후에 상호 비교 분석하였다. 그 결과 CNN-LSTM 복합 모델 분류기를 사용시 73.7%로 가장 우수하였고, LSTM 모델 69.7% ,CNN 모델은 68.6% 의 결과를 얻었다.

more