基于文档多维度特征融合的抽取式摘要研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:newhing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代的到来,网络上新闻、评论、文献等文本数据呈爆炸式增长,用户不得不花费大量的时间从文本中寻找自己所需要的信息,因此急需对这些海量文本进行有效的摘要提取。而利用计算机来进行文本自动摘要则是解决此问题的有效手段之一。摘要的本质是对文档语义的理解,所以本文围绕如何利用文档深层次语义特征来改善摘要质量展开研究,提出一种基于文档多维度特征融合的抽取式摘要方法。主要工作如下:(1)面对目前抽取式摘要研究多是利用一些启发式特征和浅层的语义特征问题,提出一种基于文档多维度语义的表征模型。句子在文档中的重要程度是和文档的语义息息相关的,而文档的语义在不同的维度上的表征是不同的。本文所提出的模型分别从文档的主题、细粒度以及上下文的关系来构建文档的语义表示。首先,利用LDA模型对文档进行主题分析并生成对应的主题词,并对其进行情感偏好分析,避免一些无实际意义的虚词对文档主题的干扰。然后,通过对文档不同细粒度的划分,利用CNN层来构建文档词语、句子与段落的语义表示,这可以有效的反映出文档的不同层级之间的层次性。最后通过Bi-LSTM层来构建句子在文档中的上下文关系特征,从而在不同的维度上对文档进行深层次的语义特征表示,为后续摘要的抽取做准备。(2)对于目前摘要生成的过程中把句子的打分和抽取分离为两部分来进行并且冗余性判断的方法过于单一的问题,提出一种基于冗余性控制的抽取式摘要模型。传统的去冗余的方法是直接对两个句子进行相似度的计算,如果相似度大于一个阈值则随机丢弃一个,这样可能会造成信息的损失以及摘要的不准确。本文提出的模型在冗余性、多样性的约束之下,对句子的打分和抽取同时进行,并对抽取出来的句子进行重要性的排序,使得生成的摘要在最大限度的保留文档语义的前提下尽可能的降低文档的冗余性。最后,本文选择LCSTS中文短文本数据集作为实验数据,使用Rouge-1、Rouge-2以及Rouge-L作为生成的摘要的质量评价标准对本文提出的方法进行评价,并与传统的Text Rank和RNN和基于主题的抽取方法进行比较。实验结果表明,本文所提出的基于文档多维度特征融合的抽取式摘要模型可以有效的对文档的语义进行深层次的表示且很好的控制文档的冗余性,从而验证了本文所提出的模型在抽取式自动摘要方面的有效性。
其他文献
建筑总能耗约占全国能耗总量的百分之二十,发展绿色建筑刻不容缓。开发高耐久、低能耗、高防火的保温隔热建筑材料是实现绿色建筑保温节能、降低建筑能耗和碳排放的社会急需
在社交网络SNS(Social Network Service)中,用户可以通过添加、关注好友等方式拓展自己的朋友圈。然而随着社交网络规模的扩大,用户间的链路结构将变得更加复杂,用户很难迅速找到兴趣相似的好友。因此,好友推荐系统应运而生,旨在帮助用户高效获取感兴趣的好友。传统的社交网络好友推荐,一般通过粉丝量,点赞数关注好友,结果知名度高的好友被优先推荐。但是这种推荐方法无法挖掘隐藏于文本内容的观
自从“双创”战略实施以来,中国创业活动呈现出逐年活跃的趋势。私营经济对于吸纳劳动力就业,促进经济发展,提高个体收入的重要意义日益凸显。农民工在其打工经历中积累了较
塔里木盆地地处我国西北的新疆南部。这里远离海洋,蒸发比较强烈,气候十分干旱,属于典型的内陆干旱和半干旱地区,其农业主要依赖灌溉,灌溉必将对当地干旱气候产生重要影响。
近年来,我国创新投入力度不断加强,已成为世界第二大研发执行国。创新投入攀升的同时,以科技进步贡献率为代表的技术进步水平却未呈现明显的增长趋势。创新要素投入区域间高度不平衡,内部结构分散、重复、封闭的“碎片化”问题突出。在空间和价值链两个维度上,创新资源的配置亟待优化。在我国经济发展进入“新常态”的背景之下,长三角地区创新能力不仅作为经济增长的核心驱动力影响作用日益加强,还成为衡量地区经济发展质量的
文本分类一直是自然语言处理的重要部分。文本分类方法主要是从文本中提取文本特征并根据文本特征进行分类。然而,特征提取一直是文本分类的难点。很多基于统计学的文本分类方法实际上是此匹配法。这种方法不仅耗时耗力,还需要预设文本特征,而这非常高的专业能力。因此,传统文本分类一直是高消耗低精度的方式。近几年随着深度学习的快速发展,深度学习方法已经被大量应用于文本特征的提取,并被证明能够有效的提取文本特征。在深
目的:本研究通过对王敬卿主任门诊常见周围性眩晕病例进行回顾性分析,借助数据挖掘技术,总结常见周围性眩晕的病机证治规律,以期能为常见周围性眩晕的临床诊疗工作提供新的思
硒和锌是人与动物必需的微量元素,通过施用硒、锌肥来提高植物(食物)中硒、锌含量是解决全球人体硒、锌营养不足的重要安全途径。有关硒、锌配施对植物硒、锌吸收和转运的影
超级电容器作为一类可靠的电化学储能系统,拥有比电池更高的功率密度、更长的使用寿命和绿色环保等特点,逐渐成为储能材料与器件研究的热点。其中,二元钴基金属氧化物作为重
近几年来,随着自然语言处理的快速发展,语义角色标注作为自然语言处理研究中最重要也是最基础的步骤也因此受到了极大的关注。深层神经网络被广泛应用于语义角色标注的任务当中,尤其是将深度注意神经网络模型应用于语义角色标注研究中,为语义角色标注带来了新的突破。但是随着深度注意神经网络的网络层数增加以及随着网络层数增加带来的横向神经元增加,导致了训练过程中出现训练不稳定问题以及梯度爆炸和梯度消失问题,在这种情