웹 페이지 구조 분석을 통한 효과적인 동영상 검색용 키워드 추출 방법 : An effective keyword extraction method based on web page structure analysis for video retrieval in WWW
- 발행기관 서강대학교 대학원
- 지도교수 낭종호
- 발행년도 2007
- 학위수여년월 200702
- 학위명 석사
- 학과 및 전공 컴퓨터학
- 식별자(기타) 000000103782
- 본문언어 한국어
초록/요약
웹 동영상 검색 시스템은 WWW에 산재한 동영상을 대상으로 하여, 동영상에 키워드를 이용해 주석을 달고, 사용자의 질의 키워드와의 비교를 통해서 검색 결과를 생성한다. 기존에는 도메인 한정적인 동영상 검색 시스템에 대한 연구, 또는 웹 이미지 검색 시스템에 대한 연구가 진행 되었을 뿐 웹 동영상 페이지에 대한 검색 및 관리에 대한 연구는 활발히 진행되지 않았다. 본 논문에서는 웹 동영상 페이지의 구조를 바탕으로 하여, 웹 동영상의 관리 및 검색을 위한 주석용 키워드를 자동 추출하는 방법을 제안한다. 제안 방법은 두 단계로 이루어진다. 첫 번째는 웹 동영상 페이지들의 구성 패턴을 분석하여, 타입을 결정하는 단계이다. 동영상과 이미지는 웹 페이지 내에서 그 의미가 서로 다르기 때문에, 페이지를 구성하는 방식도 달라진다. 그렇기 때문에 키워드를 추출하기 위한 사전 작업으로 동영상들을 포함하는 웹 페이지들을 수집하고, 페이지들의 구성 패턴을 분석하여 4가지 타입으로 구분 한다. 웹 동영상 페이지가 가지는 동영상의 개수, 동영상 주변 텍스트 구성의 복잡한 정도를 가지고 타입을 나눈다. 두 번째 단계는 실제 키워드를 추출 하는 단계이다. 단일 동영상과 복잡하지 않는 주변 텍스트를 포함하는 TYPE1 웹 동영상 페이지의 경우는 거리에 상관없이 같은 가중치로 키워드를 추출하고, 단일 동영상을 포함하면서 복잡한 구조의 주변 텍스트를 가진 TYPE2의 경우는 DOM트리 구조에서 동영상과 일정 레이아웃 거리 이상 차이 나는 텍스트에 대해 낮은 가중치를 적용하는 방법으로 키워드를 추출한다. 다수개의 동영상을 포함하며 주변 텍스트 구조가 간단한 TYPE3의 경우는 TYPE1의 방법과 유사하지만, 동영상 별 근접 텍스트를 파악하여 추가적인 가중치를 적용하고, 가장 복잡한 TYPE4의 경우 다수개의 동영상을 포함하고, 주변 텍스트구조가 복잡하므로 TYPE2와 같이 동영상 노드로부터 멀리 있는 텍스트는 가중치를 낮추고, TYPE3와 유사하게 동영상 별 관련 텍스트를 따로 파악하여 가중치를 적용함으로써 키워드를 추출한다. 실험에 의하면 본 논문에서 제안하는 방법은 기존 웹 이미지 검색 시스템을 위한 키워드 추출 방법보다 정확율 면에서 17%의 성능 향상을 보였다. 따라서 논문에서 제안하는 방법은 일반적인 웹 동영상 검색 시스템을 위한 키워드 추출에 널리 적용 될 수 있다.
more초록/요약
This thesis proposes an effective keyword extraction method for the Web videos by analyzing the structure of the Web page that includes the video. It first classifies the Web pages with videos into four types with respect to the number of videos in the Web page and the layout distances between the video and the surrounding text blocks. For the Web pages belonging to Type 1, in which there is only one video and the maximum layout distance of text blocks is less than T (a threshold), all text blocks have the same weights to extract the keywords for the videos. For the Web pages belonging to Type 2, in which there is only one video but the maximum layout distance is grater than T (a threshold), the weights of the text blocks are in inverse proportional to their layout distance to video. If there are several videos in the Web pages and the maximum layout distance is less than T, in the case of Type 3, the text block that has the minimum layout distance is selected for each video, and an extra weight is assigned to that text block. The web pages that have more than one video and the maximum layout distance is larger than T, in the case of Type 4, the closest text block is selected for each video and assigns an extra weight. The weights of other text blocks are in inverse proportional to their layout distance to video as in Type 2. Finally, the keywords for the video are extracted from all text blocks in the Web pages with some well-known techniques such as TF/IDF and HTML tag analyses, however, the weights of the text blocks to the keywords are adjusted by the Web page type and their proximities. Experiments with 1087 Web pages that have total 2462 videos show that the precision of the proposed extraction method is 17% higher than the method that applies the keyword extraction scheme used for Web image to Web videos.
more

