基于SDD+的中文自动文摘研究

来源 :辽宁科技大学 | 被引量 : 0次 | 上传用户:shamobingshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文摘是以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。它可以帮助读者初步了解有关文本的内容,快速地掌握信息,准确地找到自己需要的资料。如果只靠人工来编制摘要,速度远远跟不上信息激增的发展要求,因此自动文摘的研究就应运而生。 中文自动文摘的研究如火如茶地开展了近20年,取得了一些令人鼓舞的成果。然而,对汉语的处理相对西文语言具有许多难点(如分词困难,形态变化少,语法未形成规范等等),若干可能会影响自动文摘效果的潜在问题正逐渐被越来越多的研究人员所重视。 (1)中文分词技术薄弱影响了根据词频统计计算权值并判断重要性的效果。 (2)汉语的功能过于广泛,同义词和一词多义现象十分突出,自动文摘系统无法有效区别。 (3)摘录型文摘系统所产生的文摘常常出现主题遗漏现象,同时也会出现同意不同形的关键句子的冗余现象。 (4)由于文摘中的句子是从原文不同位置抽取的,句子相互之间无多大关联,导致文摘缺乏连贯性。 致力于对上述问题的解决,我们尝试性地提出了一种基于SDD+的中文自动文摘方法。在该方法中,我们采用了如下四种关键技术: 技术1:在分词中采取双哈希二叉树的词典机制。 技术2:采用基于SDD+的矩阵分解方式。 技术3:在SDD+之后,采用先语句聚类,再自动选取的方式。 技术4:以因果关系为例,介绍了连贯性的处理。 为了验证提出的中文自动文摘方法的可行性和有效性,我们分别采用提出的自动文摘方法以及传统的典型文摘方法做了实验。运用内部评测手段进行了系统评估。试验结果证明本系统多数性能指标优于其它几个文摘系统。
其他文献
全景图是近年来兴起的基于图像的绘制技术中的核心技术之一,虚拟现实的重要研究内容。生成全景图涉及到计算机图形学、图像处理及计算几何等诸多学科。全景图可以表达完整的环
伴随着手机由奢侈品变为日常生活中不可缺少的交流工具时,有着“拇指经济”之称的短信业务也随之得到空前快速的发展。然而,随之产生的大量垃圾短信,也为我们的日常生活带来
基于内容的图像检索(CBIR)是当前计算机视觉、图像数据库与数据挖掘等领域研究的热点之一。本论文主要围绕目前国内外基于内容图像检索领域的现状和发展趋势,对图像检索的关
随着信息技术及网络技术在军事电子信息系统中的应用,军事电子信息系统运行效率不断提高,但同时也增加了系统整体的复杂度,系统构成也将越来越复杂。为了保证系统能够连续可靠、
随着计算机技术和定位技术的快速发展,许多厂商都研制并生产出了适用于个人或者特殊行业的移动定位产品,这为人们的出行提供了极大的便利,尤其是一些车辆定位及管理系统,大大
脉诊是传统医学中最具特色的一种。许多传统医学在公元前就对脉诊有详细的描述记载。这些传统的脉诊由于历史、社会的诸多原因,没能充分利用现代科学的进步,尽管有合理的内涵和
随着Web技术的迅猛发展和企业级应用日趋复杂,软件结构设计的合理性成为开发企业级应用平台的关键,能否使用可重用的体系架构降低软件开发成本是软件设计的核心问题。J2EE体系
随着服装领域信息化程度的不断提高,涌现出大量的服装电子商务网站,各个服装企业纷纷建立自己的信息系统,造成系统之间的异构性,同时也存在重复建设的问题。针对目前服装领域存在
SVG(Scalable Vector Graphics,可缩放矢量图形)是一种开放标准的文本式矢量图形描述语言,它基于XML,通过使用简单的文本语句完成矢量图形及栅格图像的表现,支持诸如色彩填充、对
本文中,我们首先提出了一个多接收者签密方案,该方案可以同时满足保密性和认证性的要求。通过采用一些密码学上的技巧,我们的方案和其他平凡的多接收者签密方案相比更为高效。为