基于不同特征权重的中文网页自动摘要

来源 :华侨大学 | 被引量 : 0次 | 上传用户:weifeng151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档的自动文摘是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。在数量庞大的网页中浏览自己需要的内容,会花掉很多时间,而用户关心的只是其中的一小部分。通过搜索引擎能帮助用户获得所有与主题相关的页面,但返回的页面太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需要的信息。网页自动文摘技术研究的目标正是力求解决这一问题,直接给用户提供简洁的、信息全面的页面内容的概要,以提高用户获取信息的效率。基于句子抽取的方法是一个历史悠久、简单有效且目前仍然被广泛使用的自动文摘方法。这种方法是利用统计学的方法或者通过启发式的方法从原文中抽取句子,然后按照长度要求将这些句子有机结合起来形成一篇文摘,使其尽可能多地保留原文中的信息。本文研究的重点是基于句子抽取的单篇中文网页自动摘要的几个关键技术。包括网页预处理、挖掘关键词串、句子权重的计算等。在摘要分析之前,需要对网页文件做预处理。在一篇HTML文档中,有很多和页面正文内容无关的语句,需要将它们过滤掉。使摘要分析的时候可以缩小扫描范围,而且得到更准确的正文内容。挖掘关键词串在摘要过程中起着重要的作用。本文提出用频繁序列挖掘的方法提取关键词串。首先用改进的PAT树技术为文本创建一个树存储结构,然后结合净频率计算方法挖掘出频繁出现的字串作为关键字串。实验表明,序列挖掘方法能从中文网页中更好地识别出人名地名,网页中出现的新词,以及常用动名词词组,名词词组等。传统的摘要侯选句子权值计算采用线性插值的计算方法,本文对传统的算法进行改进,加入了句子有效测度值和句子与标题编辑距离相似度的影响因子,以获得与文本主题更相关的摘要候选句。实验表明,此种摘要候选句的选取能很好的反应文本的主题。本文结合了前面提到的各项技术,设计了基于多种特征的中文网页的自动摘要系统。实验结果表明:本系统在对中文网页内容判断和摘要可读性,都优于目前一般网页的自动摘要设计。
其他文献
随着计算机技术的发展,网络结构日趋复杂,入侵手段日趋多样化,入侵检测系统在过去几年的研究主要集中在体系架构和检测方法上,在不断取得突破的同时,也暴露出一些诸如事件风
知识管理与知识管理系统正引起广泛的关注,本文在课题组已设计实现的基于本体的可重构知识管理系统框架下,改进了其中的若干关键技术,重点对知识管理的过程模型等进行了研究,
工作流技术实现业务过程的分析、建模、优化、管理与集成,最终实现业务过程自动化。工作流管理系统则是实现这一技术的软件系统,它完成工作流的定义和管理,并按照预先定义的
计算机和网络技术的发展将人类带入信息化社会,随之而来的是倍受关注的信息安全问题,它已成为信息科学领域的一个重要的新兴学科。数字签名技术是信息安全的核心技术之一,被广泛
地理信息系统是一种集地理空间特征和各种统计信息为一体的特殊信息系统,在许多领域,如城市规划设计、资源环境管理、生态环境监测保护等都有应用。把地理信息系统技术应用于旅
综合结算系统是天津移动公司业务支撑系统的重要组成部分,天津移动与其他运营商结算、省间结算、合作伙伴结算均可由综合结算系统在统一平台上承担。本项目根据业务发展规划
随着电子政务、电子商务等信息化建设的快速发展,大量有价值的文本在网络上流动,如果这类文本被篡改,将会产生严重的后果,因此,电子文本的认证问题迫在眉睫。相对于传统的数
企业统计信息是企业管理的支柱和基石,是企业组织的“神经系统”,企业管理离不开统计信息的导引,建立和加强企业统计信息管理系统不仅仅是统计生产方式的变革,更是现代企业管理的
随着数据流应用系统的快速发展,流数据管理系统对数据库技术提出了巨大挑战。由于数据流经常是爆发性的且数据特征可能随时变化,因此要求数据流管理系统具有良好的自适应性。当
随着科学技术的不断发展,为了适应用户对系统性能的需求,处理器由单核发展到双核,进而发展到多核。然而随着处理器内核数目的增加和内部集成度的提升,处理器内部功耗和发热量