基于聚类算法的中文自动文摘方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:boymaster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎技术的发展,人们能够通过搜索引擎方便的得到自己想要的各种信息,无论哪方面的内容,这些搜索引擎都能帮助人们快速地找到相关的网页。用户只需输入一些关键字,它们马上就会搜索出相关的网页。但搜索引擎不能提供给用户简洁、直接的答案,用户很难快速准确地定位到所需的信息。自动文摘技术的目标是致力于将信息全面的、简洁的文档直接呈现给用户,提高用户获取信息效率,所以说自动文摘技术的重要性是不言而喻的,它的应用前景将非常广泛。针对目前中文自动文摘冗余度过高的问题,本文将潜在语义分析,HowNet概念抽取与句子聚类方法相结合。利用潜在语义分析与HowNet概念抽取来计算句子相似度。在进行潜在语义分析的时候,对词频矩阵进行了加权转换,提高了句子相似度计算的准确性。研究了目前主流的句子聚类算法,对比分析了层次聚类算法与划分聚类算法的优点与不足,提出了一种新的混合聚类算法。将层次聚类算法(Agnes)与K-中心聚类算法(K-Means)相结合对文本中的句子进行聚类,提高了文本主题划分的准确性。设计并实现了一个原型系统来验证本文所提出的方法,并在此原型系统的基础上设计了两个实验。实验一比较了两种句子相似度计算方法所得文摘的准确率与召回率;实验二则比较了三种聚类算法的聚类划分准确度。最后对实验结果进行了详细的分析。
其他文献
存储安全一直是安全领域的核心问题,尤其是对于军队、国家机构、重要商业机构等含涉密数据较多的领域。一旦敏感数据被窃取,其造成的损失有时是无法估量的。当前信息安全防御攻
近年来,我国软件产业迎来了蓬勃发展的新局面。随着软件企业规模的扩大,相应软件质量问题越来越突出。开发了Web自动化测试工具软件,就是为了加快测试执行频率,覆盖更多的功能模
软件测试是软件系统工程的一个关键组成部分,是软件开发的重要环节和保证软件质量的关键步骤,其目的是以最少的时间和人力找出软件中潜伏的各种错误和缺陷。然而,软件测试是一个
随着XML逐渐成为互联网应用的数据交换格式,越来越多的应用使用XML作为数据存储格式,对于XML的查询语言需求正在日益增加。XQuery语言的推出使得XML查询语言有了一种统一的标准
IP FRR作为一种当前网络链路节点保护的过渡技术,通过建立备用路径的方式为网络链路或具体到某个节点提供保护。目前路由收敛技术由于自身的局限性,无法满足一些承载网络路由收
随着计算机网络的迅速发展,对网络的有效管理成为保障网络运行有效性和稳定性的关键所在,而服务器作为网络的核心灵魂,更是占据着不可忽视的地位。简单网络管理协议SNMP已成
网格资源的分布性、异构性、动态性等特点给网格环境下资源的分配造成困难。资源分配负责根据用户的资源需求描述发现最佳资源服务,在实际应用中,用户的资源需求带有很大的模
随着软件开发技术迅速发展,Web应用系统的复杂性在急剧上升,对性能测试、分析、预测的要求越来越高。性能的好坏已经成为Web应用系统成败的关键因素之一。传统的软件工程中,
计算机网络技术已得到飞速发展,计算机语言的学习也应该充分利用计算机网络技术,实现远程教育。在计算机语言学习中,上机练习是必不可少的环节。传统的上机环境要求指导教师
时钟同步是分布式系统中的经典问题之一,也是分布式计算中的核心技术之一。随着计算机技术和网络通信技术的迅猛发展,这个问题又被赋予了新的内涵。在互联网络的迅猛发展和人