基于不同特征权重的中文网页自动摘要

来源 :华侨大学 | 被引量 : 0次 | 上传用户：weifeng151

【摘要】

：

文档的自动文摘是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。在数量庞大的网页中浏览自己需要的

【作者】

：

林一旻

【机构】

：

华侨大学

【出处】

：

华侨大学

【发表日期】

：

2007年期

【关键词】

：

自动摘要序列挖掘特征加权有效测度值相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文档的自动文摘是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。在数量庞大的网页中浏览自己需要的内容,会花掉很多时间,而用户关心的只是其中的一小部分。通过搜索引擎能帮助用户获得所有与主题相关的页面,但返回的页面太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需要的信息。网页自动文摘技术研究的目标正是力求解决这一问题,直接给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。基于句子抽取的方法是一个历史悠久、简单有效且目前仍然被广泛使用的自动文摘方法。这种方法是利用统计学的方法或者通过启发式的方法从原文中抽取句子,然后按照长度要求将这些句子有机结合起来形成一篇文摘,使其尽可能多地保留原文中的信息。本文研究的重点是基于句子抽取的单篇中文网页自动摘要的几个关键技术。包括网页预处理、挖掘关键词串、句子权重的计算等。在摘要分析之前,需要对网页文件做预处理。在一篇HTML文档中,有很多和页面正文内容无关的语句,需要将它们过滤掉。使摘要分析的时候可以缩小扫描范围,而且得到更准确的正文内容。挖掘关键词串在摘要过程中起着重要的作用。本文提出用频繁序列挖掘的方法提取关键词串。首先用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为关键字串。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。传统的摘要侯选句子权值计算采用线性插值的计算方法,本文对传统的算法进行改进,加入了句子有效测度值和句子与标题编辑距离相似度的影响因子,以获得与文本主题更相关的摘要候选句。实验表明,此种摘要候选句的选取能很好的反应文本的主题。本文结合了前面提到的各项技术,设计了基于多种特征的中文网页的自动摘要系统。实验结果表明:本系统在对中文网页内容判断和摘要可读性,都优于目前一般网页的自动摘要设计。

其他文献

基于关联分析的入侵检测技术研究

随着计算机技术的发展,网络结构日趋复杂,入侵手段日趋多样化,入侵检测系统在过去几年的研究主要集中在体系架构和检测方法上,在不断取得突破的同时,也暴露出一些诸如事件风

学位

入侵检测因果关联关联规则漏报关联攻击预测

企业协同知识管理过程模型及相关技术研究

知识管理与知识管理系统正引起广泛的关注,本文在课题组已设计实现的基于本体的可重构知识管理系统框架下,改进了其中的若干关键技术,重点对知识管理的过程模型等进行了研究,

学位

知识管理过程模型流程参与者分配知识地图知识供应

自动配置的网格工作流服务器的研究与实现

工作流技术实现业务过程的分析、建模、优化、管理与集成,最终实现业务过程自动化。工作流管理系统则是实现这一技术的软件系统,它完成工作流的定义和管理,并按照预先定义的

学位

网格工作流负载平衡自动配置Jini

数字签名系统的研究与实现

计算机和网络技术的发展将人类带入信息化社会，随之而来的是倍受关注的信息安全问题，它已成为信息科学领域的一个重要的新兴学科。数字签名技术是信息安全的核心技术之一，被广泛

学位

数字签名盲签名离散对数散列函数

基于GIS的武汉市旅游信息查询系统的设计与实现

地理信息系统是一种集地理空间特征和各种统计信息为一体的特殊信息系统，在许多领域，如城市规划设计、资源环境管理、生态环境监测保护等都有应用。把地理信息系统技术应用于旅

学位

GIS旅游信息空间数据旅游信息查询地理信息系统多媒体查询B／S结构

综合结算系统在移动事业中的应用

综合结算系统是天津移动公司业务支撑系统的重要组成部分,天津移动与其他运营商结算、省间结算、合作伙伴结算均可由综合结算系统在统一平台上承担。本项目根据业务发展规划

学位

综合结算系统标准话单异常记录结算批价

文本脆弱水印技术的研究

随着电子政务、电子商务等信息化建设的快速发展,大量有价值的文本在网络上流动,如果这类文本被篡改,将会产生严重的后果,因此,电子文本的认证问题迫在眉睫。相对于传统的数

学位

文本脆弱水印文本认证二值图像PDF文档视觉隐蔽性篡改定位

统计信息管理系统的研究与实现

企业统计信息是企业管理的支柱和基石，是企业组织的“神经系统”，企业管理离不开统计信息的导引，建立和加强企业统计信息管理系统不仅仅是统计生产方式的变革，更是现代企业管理的

学位

ActiveX报表制作决策支持统计信息管理系统XML

数据流卸载技术研究

随着数据流应用系统的快速发展，流数据管理系统对数据库技术提出了巨大挑战。由于数据流经常是爆发性的且数据特征可能随时变化，因此要求数据流管理系统具有良好的自适应性。当

学位

流数据管理数据流卸载自适应框架服务质量实时调度PID控制器滑动窗口连接

基于温度感知的多核实时系统稳定性研究

随着科学技术的不断发展,为了适应用户对系统性能的需求,处理器由单核发展到双核,进而发展到多核。然而随着处理器内核数目的增加和内部集成度的提升,处理器内部功耗和发热量

学位

实时系统失效机制MTTF温度感知负载平衡损耗补偿

基于不同特征权重的中文网页自动摘要

与本文相关的学术论文