【摘 要】
:
随着当前互联网和移动互联网的迅猛发展,网络信息呈现出爆炸式增长,如何有效自动化地获取所需信息成为当前情报科学的研究热点。自动摘要技术可以对文本信息进行压缩和提炼,是解决该问题的重要手段之一。现有的抽取式自动摘要技术是从原文中抓取关键词或句子重组后形成摘要。这种技术易于实现,但摘要句往往前后逻辑性不强,不够流畅,且使用的词都是在原文中出现的词,语言不够丰富。生成式自动摘要技术运用智能算法理解文本内容
论文部分内容阅读
随着当前互联网和移动互联网的迅猛发展,网络信息呈现出爆炸式增长,如何有效自动化地获取所需信息成为当前情报科学的研究热点。自动摘要技术可以对文本信息进行压缩和提炼,是解决该问题的重要手段之一。现有的抽取式自动摘要技术是从原文中抓取关键词或句子重组后形成摘要。这种技术易于实现,但摘要句往往前后逻辑性不强,不够流畅,且使用的词都是在原文中出现的词,语言不够丰富。生成式自动摘要技术运用智能算法理解文本内容进而生成逻辑性强表达流畅的摘要。目前通用模型还存在摘要不准确语义不够丰富的问题值得研究。本文在对现有的词向量化方法和深度学习模型深入分析研究的基础上,提出了基于BTWPS自动编码器的生成式自动摘要模型。自动编码器包括编码器和解码器两个部分,本文主要从词向量化、编码器和解码器三个方面做出如下工作:(1)词向量化部分。本文引入词的关键性和词性两个语义特征,并提出了一种TF-IDF值和词性标注的向量化方法,将TF-IDF值和词性标注信息融入基础词向量中形成新的词向量。与原本词向量相比,该方法重点突出了词的关键性和词性特征,提升了词义理解能力,并最终提高摘要质量。(2)编码器部分。本文分析了三种循环神经网络门结构的优缺点,针对一般循环神经网络记忆能力不足和一般自动编码器中间语义不准确的问题,引入了门循环单元门结构,双向循环神经网络和注意力机制,构建了一种生成式自动摘要编码器。与一般的编码器相比,该结构能生成更加准确的中间语义,提高文本的理解能力。(3)解码器部分。本文深度剖析了多层循环神经网络解码器的结构特点,提出了基于状态层的解码器结构和一种引入临近词的解码器词汇表重组方案。实验确定了临近度的大小,探究了状态层和映射层数量对摘要结果的影响。改善了摘要句的准确度,丰富了解码器的语义表达能力。最终方案在Rouge评价体系中表现良好。本文提出的自动编码器模型也可以应用在其它领域。
其他文献
介绍传统220 kV瓷柱式断路器备测试或检修存在的问题,介绍用专用测试杆和连接线测试的方法.
在新媒体环境下,当今高中生时尚消费行为呈现的形式和特征令人不禁思考经济与媒体之间的相互作用。通过样本调查,本文尝试探讨新媒体在刺激消费欲望、营造消费氛围、塑造认同
目前中药药代动力学研究尚处于探索阶段,从上个世纪80年代起中药药动学有了很大的发展。本文综述了一些临床常用中药有效成分的药动学研究进展,从中药特点和研究现状入手,指
为考察儿童对人们的过去经验和儿童对真实/虚构实体的恐惧反应之间关系的理解,研究者从个体自我和社会关系角度对儿童恐惧的表现进行探讨,发现即使是年龄较小的儿童,对他人恐
由民歌、 民间器乐改编而成的钢琴曲,是钢琴传入中国后中国音乐工作者对其进行民族化改造的硕果.而储望华则是改编曲创作的佼佼者,曾先后创作了 《翻身的日子》 《二泉映月》
本文主要针对开放实验安全管理进行深入的分析,结合存在的安全隐患,总结了加强开放实验室安全管理的重要性,并提出有效实现其安全管理的措施,为之后的开放实验室发展提供了可
钢筋混凝土结构是当今世界土木工程领域最常用的建筑结构形式,但在滨海地区由于钢筋受到氯离子侵蚀而导致钢筋混凝土结构耐久性不足,为提高海滨地区建筑结构耐久性,有必要设
央企改革提升周期股估值$$ 中国证券报:上证综指在目前的平台震荡持续时间之长较为少见,短期大盘会否做出方向性选择?是向上拓展还是再次回落?$$ 魏颖捷:上证指数区间震
音乐可以陶冶情操、净化心灵、怡情健身,对人的心理生理健康起到潜移默化的作用。本文在对音乐教育的心理生理健康功能进行阐述及对中职生的心理生理状况进行分析的基础上,深
人吃五谷杂粮,哪有不生病的?作为完善多层次医保体系的重要举措,大病保险的开展,标志着我国医保体系建设从实现“病有所医”向解决“因病致贫、因病返贫”迈出了关键一步。$$