论文部分内容阅读
Internet作为海量信息的载体越来越受到人们的青睐,人们在享受网络便捷的同时也被其大量涌现的无用Web页面信息所困扰,如何快速、准确地定位对用户有用的Web信息已成为当今学术界研究的一大热点。Web文档自动摘要技术聚焦于解决这一问题,其思想是利用计算机快速处理Web页面并自动总结出其文档的核心内容,使得用户可以根据自动概括出的核心内容来判断Web页面的价值,从而大大提高用户准确获取信息的速度。从现有研究看,利用Web文档自动摘要技术生成的摘要质量很难令人满意,原因在于两方面:其一,Web页面上使用的HTML标签不规范及大量噪音信息的存在影响了Web文档摘要抽取的准确率;其二,现有的自动摘要技术仅基于统计方法,忽视了对文档内容和主题的分析,导致生成的摘要质量不高。针对这些不足,本文首先提出了一种以文本块为单位的、自底向上的Web文档抽取算法(BWTE算法),从而有效地提高Web文档抽取的准确率;其次,本文提出基于领域本体的文档自动摘要算法(OntoSVD算法),将语义分析引入到基于潜语义分析模型的自动摘要算法中,进而提高生成的自动摘要质量。基于BWTE和OntoSVD算法,作者实现了原型系统MIA,验证了这两个算法的有效性。本文的主要研究成果可以归纳为:1)在现有的Web文档抽取方法基础上,提出了一种以文本块为单位的自底向上抽取算法—BWTE(Block-base Web Text Extraction)算法,先后使用过滤和抽取的方法对Web页面进行处理,从而得到Web文档,提高了Web文档抽取的准确率。2)提出了基于领域本体的自动摘要算法—OntoSVD算法,将语义分析引入到基于潜语义分析模型的自动摘要算法中,对文档进行内容和主题分析,在传统的统计方法中加入了语义信息,提高了摘要的质量。3)结合新的Web文档抽取算法和文档自动摘要算法给出了MIA系统关键组件的设计,并实现了一个原型系统以验证算法的有效性。