基于主题划分的Web文档自动摘要研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,Web上的各种数据急剧增加,网络已经成为数据的仓库和知识的潜在源泉。用户如何才能快速有效地获取和利用这些资源,已经成为迫切需要解决的一个问题,而信息检索和自动摘要是目前解决这一难题的关键技术。自动摘要技术将文档内容以简洁精练的形式呈现出来,是信息检索技术发展到一定程度的自然延伸。目前,搜索引擎作为信息检索的一个重要工具,往往只是简单截取关键字所在的部分句子或段落作为摘要提供给用户,造成用户在浏览搜索结果时无法把握整个网页的内容提要,进而影响检索效率。而传统基于词频统计的摘要方法又主要针对纯文本文档,且单纯考虑文本的表层特征,缺乏对文档的语义分析,生成的文摘质量不高,因此也难以直接适用于Web文档摘要的自动提取。本课题针对传统摘要技术的不足,提出了一种基于主题划分的Web文档自动摘要方法。该方法以非受限领域的Web文档为处理对象,在机械文摘基础上融合了理解文摘中的相关语义分析技术,充分挖掘Web文档的结构特征来提取摘要。首先,利用HTML文档的标记信息划分网页主题,以划分的主题为单位抽取摘要,使得最终文摘覆盖的内容更加全面。其次,利用WordNet中的语义关系以概念统计代替传统的词频统计以消除同义词的影响,使得提取的主题特征更加准确。最后,根据句子之间的语义相似度,提出一种新的文摘句动态抽取算法,有效避免了文摘内容的重复。在具体研究过程中,本论文所作的主要工作如下:网页主题划分:利用Web文档的标记信息构建相应的DOM树,设计了两级不同粒度的过滤器对网页进行预处理。在此基础上,通过树中节点的自然分割功能和节点间的语义相似性比较,将文档划分成不同的主题块。主题概念提取:利用WordNet词典中的同义和上下位关系,将同义词归结为它们的祖先概念,对同义词的统计就归结为对它们上位词的统计,从而有效降低向量空间的维数。并针对网页特点,通过对自身频率、覆盖度等指标的衡量来选取主题概念。摘要动态生成:基于上述工作提取的主题概念,为文档中的每个句子构建向量空间模型,利用网页标签对摘要的重要辅助作用,对传统的句子权重计算方法进行了改进,并在相似度理论的基础上设计了一种动态的文摘句抽取算法。实验结果及评价:简要介绍了基于主题划分的Web文档自动摘要的原型系统,包括系统结构、用户界面、关键步骤及其中一些重要的功能模块。然后利用收集的各类网页,将本文提出的摘要方法和传统的基于统计的摘要方法进行对照实
其他文献
今天,多媒体通信已经成为越来越重要的信息交流手段。充分利用现有的网络资源和信息处理能力,提供便捷、高效的多媒体通信平台是我们研究的重点。本文的研究课题来源于()项目“
学位
网格模型表示法是一种有效的三维实体表达方式。随着科学技术的进步,在计算机图形学、虚拟现实、地理信息系统、医学图像系统等领域所构造和使用的三维网格模型越来越精细、
USB总线从其产生到现在,经历了一个从发展到成熟的阶段,它具有支持热插拔和即插即用,接口容易扩展等特点,这些特点让它在其他外部总线的竞争中获胜,成为当今微机的主流外部总线。F
椭圆曲线加密系统(ECC)是迄今为止每比特具有最高安全强度的密码系统。同其它非对称加密体制相比,椭圆曲线密码系统除了安全性高外,还具有计算负载小,密钥尺寸短,占用带宽少等优
组播是一种新型的数据传输方式,有很广阔的应用前景。目前用于组播的组管理协议IGMP(Internet Group Management Protocol)并不提供成员接入控制,用户只要获知特定业务使用的组
学位
DoS/DDoS攻击是存在于互联网上的一个很严重的问题,攻击者在攻击时不需要花很大的力气来寻找被攻击者的漏洞,因为互联网上大量不安全的主机构成了这种攻击的平台。攻击者也不需
分布式异构环境下对企业内部计算机系统难以进行维护是众多企业都面临的一个问题。设计分布计算环境下的管理平台,实现企业内部异构环境下计算机资源的安全监控,具有广泛的应用
随着计算机、微电子等软硬件技术的不断发展,智能化正向各个领域渗透,也正在全面进入仪器仪表工业。运用智能化软硬件技术,使每台仪器或仪表能随时准确地分析、处理当前的和