검색 상세

빅데이터를 활용한 자동 문서 감사 시스템

Automatic Document Audit System utilizing Big Data

초록/요약

인터넷이 발달함에 따라서 처리하는 데이터의 양이 방대해지고 있다. 2012년 오바마 전 대통령이 빅데이터 분석을 이용하여 재선에 성공하면서 빅데이터에 대한 관심은 더욱 높아지게 되었다. 최근 이러한 빅데이터 분석 기법들은 기업에서뿐만이 아니라 선거활동 등 다양한 분야에서 활용되고 있다. 현재 국내 기업에서는 끊임없는 분식회계 등의 부조리가 발생하고 있다. 해외 기업의 경우 이미 자동화된 문서의 부조리 감시 시스템을 자체적으로 사용하고 있다. 그러나 국내에서는 자동화된 문서 감사를 위한 소프트웨어를 개발하고 있지만, 빅데이터 분석 기법을 통한 문서 감사에 대한 연구는 아직 미흡한 수준이다. 그래서 소프트웨어를 통한 문서 감사 시스템이 아닌 빅데이터 분석 기법을 통한 자동 문서 감사 시스템에 대한 연구를 진행하였다. 본 연구에서는 다양한 빅데이터 분석 기법들을 이용하여 자동 문서 감사 시스템에 대한 연구를 진행하였다. 빅데이터 분석 기법 중 텍스트 마이닝 분석을 통해 비용 청구서의 주요 키워드를 추출하고, 인공 신경망 분석과 회귀 분석 그리고 서포트 벡터 머신 분석을 진행하여 어떠한 분석의 예측 모델이 더 좋은 성능을 나타내는지 탐색하고자 하였다. 이를 위해서 본 연구에서는 총 100개의 비용 청구서 문서를 활용하여 텍스트 마이닝 분석을 통하여 문서 내에서 빈도가 높은 단어들을 추출하였다. 100개의 데이터를 하나로 통합하여 텍스트 마이닝 분석을 하여 전체 문서 내에서의 빈도가 높은 단어를 추출하였다. 그리고 유사한 단어들은 하나의 단어로 통합시키는 과정을 통하여 주요 키워드 20개를 선정하여 예측 모델에 사용하였다. 그다음으로 100개의 문서를 개별 텍스트 마이닝 분석을 진행하여 각 문서 내에서 주요 키워드 20개에 대한 빈도를 도출하였다. 그리고 주요 키워드 20개에 대한 각 문서별 단어 빈도 테이블을 생성하여 분석을 진행하였다. 청구금액을 정규화 전처리 작업을 진행하여 분석에 사용할 새로운 데이터를 생성하였고, 인공 신경망 분석과 회귀 분석 그리고 서포트 벡터 머신 분석 예측 모델을 구성하여 청구 금액에 대한 예측 값을 분석하였다. 예측 모델의 예측 값을 실제 값과 비교하여 오차율을 계산하였고, 오차 범위 ±5%와 ±10% 그리고 ±15%에서의 예측률을 분석하였다. 그리고 더 정확한 예측률을 분석하기 10-fold Cross Validation을 진행하여 예측률을 분석하였고, 비교 분석을 통하여 각 오차 범위에서 어떠한 분석의 예측 모델이 더 좋은 예측률을 나타내는지 분석하였다. 비교 분석 결과 오차 범위 ±5%와 ±10% 그리고 ±15% 모두에서 서포트 벡터 머신 분석이 더 좋은 예측률을 나타냈다. 본 연구는 자동 문서 감사 시스템을 위한 빅데이터 분석 기법을 활용하여 연구를 진행함으로써 비용 청구서와 같은 문서를 분석할 때 어떤 예측 모델을 구성하는 것이 더 좋은지 확인하는 것에 의의를 두고 진행하였다. 앞으로 빅데이터 기법을 활용한 문서 감사 시스템을 개발할 경우 어떠한 분석 예측 모델을 이용하는 것이 더 좋은 예측 결과를 나타내는지 확인할 수 있었고, 서포트 벡터 머신 분석을 이용할 경우 인공 신경망 분석이나 회귀 분석보다 더 좋은 예측 결과를 얻을 수 있을 것이라고 판단된다.

more