基于概念对象模型的文本摘要技术研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:ycdyjlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”概念的提出,互联网的应用在我国越来越广泛,人们对知识的渴望越来越强烈。但是目前海量的信息充斥在网络各个角落,导致人们对有效信息的获取越来越困难,其中如何快速准确的从海量信息中获取到有用的信息仍然是当前急需解决的问题。不少学者通过对文本进行压缩从中抽取出有用信息来解决该问题,这种对文本的压缩技术也称为文本摘要技术。本文深入分析国内外文本摘要技术的现状,充分考虑语义因素对摘要的影响,提出了基于概念对象模型的摘要生成技术,本文主要研究内容如下:(1)本文首先对文档中的多义词进行词义消歧,然后对同义词归并生成同义词词组,从而生成一系列同义词词组并从中抽取若干概念描述该词组,然后利用概念构建文档内句子的向量空间模型。(2)本文使用改进的k-means算法对基于概念的语句进行聚类,按照语句之间的相似度高低划分为若干分组,每一分组内的句子都具有比较高的相似度,不同分组之间的相似度较低,最后利用聚类结果构建概念对象模型。(3)本文构建以基于概念的句子为节点的图模型和以概念对象为节点的图模型,其中,在构建图模型边的过程中,考虑了句式特征和语义相同的语句对边的影响,在计算句子权重过程中,利用概念对象模型的权重以及句子位置的重要性来对句子得分进行修正以此生成摘要。本文的创新点主要有以下两个方面:(1)本文首先选择权重比较大的语句来初始化K-means算法的质心,利用该算法对文档中的语句进行聚类;然后借助面向对象的思想提出了概念对象模型,将这些聚类结果看成若干个概念对象,对象内都是语义相似度高的句子,不同概念对象间语义相似程度较低,最后抽取聚类内句子的属性和行为构建概念对象模型。(2)针对以句子为节点的图模型的不足之处,本文考虑句式特征和句子语义等因素,分别使用基于概念的句子和概念对象模型作为节点构建图模型,然后利用构造出的图模型进行文本摘要的处理,从而提高了生成的摘要质量。最后在哈工大多文档语料库的基础上进行扩展并创建新的语料库,对以句子为节点的图模型文本摘要生成技术和基于概念对象模型的文本摘要技术进行了实验比较。实验结果证明由本文提出的方法生成的摘要在ROUGE-1和ROUGE-2上都要好于传统的以句子为节点的图模型摘要技术,基于概念对象模型的文本摘要技术可以有效地提高文摘的质量。
其他文献
互联网自诞生以来得到了迅猛的发展,Web信息更是呈现出指数形式地增长。传统的单机多线程主题爬虫已经不适合用来完成海量信息的抓取工作。正是在这样的背景下,云计算的出现
随着“互联网+”发展,与人们生活息息相关的多标签数据将会大量产生。由于多标签学习过程中需要考虑属性特征与多个标签、标签之间的相关性,从而使得多标签学习在分类和降维
蓝牙技术以其短距离通信和低功耗等特点在无线通信领域占据着重要的地位,广泛应用于日常生活中的诸多领域。现在蓝牙的研究方向主要包括蓝牙协议的研究和蓝牙应用的研究。  
学位
基于体系架构以构件或服务为构成要素的软件开发方法是当前复杂分布式系统的主要构造方法。然而,随着分布式系统面对的环境和需求变化越来越快,分布式系统对适应性的要求也越来
学位
随着电子工艺的进步,多核技术在计算机各个方面的应用日益普及,片上网络作为多核系统的重要组成部分是决定其性能的因素之一,因此成为研究的重点。由于片上网络能耗的计算对
学位
数字图像放大和恢复是当今图像处理领域的重要内容,而如何将图形和图像有效地结合起来更是一个现实的挑战。为了在考虑图像局部特征的同时保持算法的灵活性,首先,本文根据图
随着计算机与网络技术的迅速发展,现代办公自动化(OA)系统的定义已由原来简单的公文处理扩展到了整个企事业单位的信息交换平台,成为现代社会的重要标志,同时也是部队信息化
学位
近年来,随着存储系统双容错编码在商业产品中的使用越来越多,它们的编码、解码优化也受到越来越多的关注。RAID6是一种重要的容双错编码RAID结构[1],并且有Reed-Solomon编码
学位
近年来,随着计算机网络和通信技术的飞速发展,越来越多的用户对网络资源的需求趋向于视频和音频等流媒体资源,基于流媒体技术相关的研究和应用成为当前热点之一。传统的C/S服
在各种科学研究和工程领域中,经常会遇到大量的优化问题。而且随着现实社会的快速发展,许多优化问题变得越来越复杂,传统的优化算法已经很难能满足各种科学和工程需求。因此,