自动网页摘要技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：a294953312

【摘要】

：

当用户向搜索引擎提交查询后，搜索引擎向用户返回命中网页的标题、URL和网页摘要，网页摘要对于用户快速了解网页概要、提高搜索效率具有重要的作用。人们对传统的文本自动摘要

【作者】

：

毛志科

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2009年期

【关键词】

：

网页摘要网页摘要网页预处理网页预处理摘要抽取摘要抽取摘要评价摘要评价自动网页自动网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当用户向搜索引擎提交查询后，搜索引擎向用户返回命中网页的标题、URL和网页摘要，网页摘要对于用户快速了解网页概要、提高搜索效率具有重要的作用。人们对传统的文本自动摘要算法进行了很多研究，然而由于应用场景的差异，这些研究成果无法直接用于网页摘要，目前针对搜索引擎上的网页摘要技术的专门研究还比较少。　　要从原始的HTML网页得到符合用户查询需求的网页摘要，涉及到网页预处理，句子特征的选取和权重的计算，以及摘要内容消重等。本文对网页摘要生成所涉及的多个方面进行了研究，实现了一个完整的网页摘要抽取系统，主要的工作如下：　　 1、在网页预处理模块中实现了对网页的去噪处理和网页的句子划分。其中，去噪处理减少了无关信息出现在摘要中的可能，句子划分则使得摘要的内容较为连贯，意义较为完整。　　 2、提出了使用句子的查询相关特征、主题相关特征以及TF/IDF特征，来计算句子的权重，这些特征分别反映用户的查询需求、网页的主题和网页的特色内容。实验表明，本文的特征选取及权重计算是较为科学的。　　 3、基于原始的MMR（Maximum Marginal Relevance）方法，提出了MMR-WPS（MMR for Web Page Summarization）方法用于消除摘要的内容冗余，实验表明消重处理能够在一定程度上提高网页摘要质量，对内容较长的网页尤其明显。　　 4、建立了一个摘要评价系统。通过改进著名的Pyramid摘要评价方法，利用商业搜索引擎构建中文网页摘要评价数据集，从而使得摘要评价可以脱离人工参与大规模自动地进行。　　本文设计和开发的网页摘要系统，已应用于木棉检索系统中，和开源的Nutch系统的摘要相比，在摘要的可读性和信息量上有了较大的提高。

其他文献

基于J2EE的工作流关键技术的研究与实现

工作流技术从出现到今天,已成为企业信息化建设方案中必不可少的内容之一。从简单的办公自动化系统的开发,到企业ERP系统的实施,工作流技术都发挥了相当重要的甚至是关键的作

学位

工作流工作流管理系统J2EE工作流管理联盟

指纹混合匹配的目标决策

指纹识别是生物特征识别技术中实践应用最早和最广泛技术，采用计算机进行指纹识别的自动指纹识别系统也取得了巨大的发展。指纹识别的过程主要指纹采集、指纹识别预处理以及指

学位

指纹识别指纹识别指纹图像指纹图像图像增强图像增强指纹混合匹配指纹混合匹配Gauss滤波Gauss滤波决策层匹配决策层匹配

关系数据库存储引擎关键技术研究与实现

数据库管理系统（DBMS）是除操作系统外最重要的系统软件，是信息系统的核心，也是我国信息化建设中应用最广泛、需求量最大的基础性软件。为掌握数据库管理系统实现的核心技术，研发具

学位

关系数据库关系数据库数据存储数据存储E存储引擎E存储引擎存储策略存储策略

数据流中基于FP-Tree的频繁项集挖掘算法研究

对国内外数据流频繁项集挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。简单的频繁项集挖掘由于没有采用合理的约束思想,挖掘出的频繁项集相当庞大;增量挖掘方法大部

学位

数据流FP-Tree滑动窗频繁闭项集最大频繁项集基于约束的频繁项集

基于人工免疫的高效关联规则挖掘研究

数据库中的知识发现是当前人工智能、数据库等学科中一门十分活跃的研究领域。数据挖掘是知识发现的一个重要步骤，其目的是从大量的、不完全的、有噪声的数据库中提取隐含的、

学位

数据挖掘关联规则挖掘人工免疫系统频繁项集网络成瘾知识发现

服务质量(QoS)参数定义及相应SLA监测系统设计和实现

随着计算机网络技术的不断发展，网络的规模和复杂性也在不断增加，如VOIP、VOD、视频会议等一些新型的实时网络应用，不仅对网络的带宽要求高，对QoS（Quality of Service，服务质量）的要

学位

服务质量服务质量参数定义参数定义监测系统监测系统系统设计系统设计

基于贝叶斯算法的VoIP流量识别系统的设计与实现

VoIP是一种在IP网络上传送语音信号，并以此推出相应增值业务的技术。由于它不需要专属网络，允许用户共享带宽资源，因而能在IP网络上廉价地提供语音、视频和数据等服务。随着VoIP

学位

贝叶斯算法贝叶斯算法流量识别系统流量识别系统VoIP技术VoIP技术系统设计系统设计

网络广告系统设计与实现

广告是IT企业收入中重要的组成部分。独立的网络广告系统，能够有效地整合互联网资源。该系统对于广告投放者来说，节约了和大大小小的网站谈广告合作的谈判成本。而对于还处于发

学位

广告效果分析广告接口网络广告系统互联网资源广告投放

基于粒子滤波器的同时定位与地图创建问题研究

全自主移动机器人在未来将起着越来越重要的作用。同时定位与地图创建利用机器人自身携带的传感器感知周围的环境以确定机器人在环境中的位置以及对环境进行建模，是实现真正自

学位

粒子滤波器粒子滤波器移动机器人移动机器人同时定位同时定位地图创建地图创建激光传感器激光传感器

智能网络磁盘存储系统中多IND动态管理技术研究

互联网技术及其应用推动了计算机技术的快速发展，人们对数据存储的需求已经有了很大的改变，主要表现在要求存储系统具有巨大的存储容量，希望能够对数据进行快速存取和有效的管理

学位

智能网络智能网络磁盘存储系统磁盘存储系统动态管理技术动态管理技术故障检测故障检测成员管理成员管理负载均衡负载均衡

自动网页摘要技术研究

与本文相关的学术论文