中文长文本自动文摘技术的研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:guan243775020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络信息地爆炸式增长,加大了人们在获取信息中消耗的时间及精力。自动摘要技术能够有效地提高人们面对巨大文本信息冗余时获取信息的效率。自动摘要技术按原理分为抽取式与生成式:抽取式自动摘要技术是对文本中的所有句子进行重要性评估,然后按照重要性选取句子组成摘要;而生成式自动摘要技术是基于内容,由算法生成摘要。但目前效果较好的生成式自动摘要方法,对输入文本长度的处理能力也仅限于短文本,而中文摘要任务则更为复杂。因此,本文针对中文长文本自动摘要任务的特点,结合深度学习对自动摘要关键技术,从算法改进、框架优化等方面进行了如下研究:(1)针对中文长文本自动摘要任务中的长期依赖、训练难收敛等问题,本文构建了一种结合抽取式与生成式的分段式自动摘要方法。利用抽取式文摘方法对原文先进行摘要抽取,对原文进行固定范围的信息压缩,提高方法整体的训练效率及鲁棒性。在抽取阶段的基础上,利用生成式摘要方法进行最终的文摘生成,得到高质量的摘要。(2)在抽取阶段,利用Textrank算法为基础,结合长文本摘要任务特点进行改进。包括结合文本编辑距离与句向量来提高句子相似度计算准确性;简化原算法迭代方式,使其更适于长文本摘要任务;对得到的抽取摘要进行冗余度检测,提高输出摘要简洁性。(3)在生成阶段,利用Seq2Seq作为基础框架,针对中文长文本自动摘要任务的常见问题,结合指针机制、双端覆盖机制、动态分词机制、局部注意力机制等,提升模型效果。通过与当前公开模型进行对比实验,验证分段式自动摘要方法的有效性。(4)采用强化学习方式来提高中文长文本自动摘要任务的效果。在上述两个阶段优化的基础上,结合强化学习进行实验:利用Actor-Critic算法连接抽取阶段与生成阶段,使两个网络一起训练;在生成阶段,加入强化学习误差项,将ROUGE指标加入到摘要生成阶段中。通过实验验证,强化学习能有效提高模型的ROUGE分数。通过上述阶段的优化的实验研究,本文研究的算法效果较好,且优化了模型整体收敛效率,具备一定研究意义,可以为自动文摘研究提供一些参考价值。
其他文献
学位
纤细裸藻(Euglena gracilis)富含副淀粉,是一种新型的保健食品。副淀粉具有降低胆固醇、降低血糖、抗病原微生物、抗肿瘤、保护肝脏和免疫调节等多种生物活性,有望开发成营养保健品或免疫佐剂。然而副淀粉的免疫调节机制尚未明确,极大地制约了副淀粉的开发应用。本论文以超声和碱化的方法制备裸藻副淀粉,探究其对RAW264.7巨噬细胞的免疫激活效果及机制,主要内容及结构如下:(1)优化了裸藻副淀粉的
拓展金融科技应用,应当树立以人民为中心的发展理念,坚持以人为本,不能本末倒置,舍本逐末。要注重用户体验,体现人文关怀,营造友好、安全的服务环境。同时,金融科技本质上是一种技术驱动的金融创新活动。无论叫金融科技还是科技金融,始终不能忘记金融属性,不能违背金融运行的基本规律,否则必然会受到市场的惩罚。
期刊
首先以盐酸分解磷矿制备酸解液,再通过向酸解液中加入硫酸制备硫酸钙晶须。实验考察了加料时间、搅拌转速、硫酸浓度、硫酸根与钙离子物质的量比、氧化钙质量分数、反应温度对硫酸钙形貌及晶须长径比的影响。采用扫描电镜观察硫酸钙形貌并用Image-Pro-Plus对硫酸钙SEM图进行分析得到硫酸钙晶须的平均长径比。实验得到硫酸钙晶须的最佳制备工艺条件是:加料时间为20 min、搅拌转速为350 r/min、硫酸
全景视频作为一种新颖的视频格式受到了人们的广泛关注,而虚拟现实游戏的热潮进一步促进了全景视频的发展。全景视频提供观看者沉浸的视频体验,视频的内容呈现于立体球面。本文主要研究全景视频视口预测和全景视频人物检测两方面内容。全景视频的视口预测具有重要的研究意义。在传统的视频传输过程中,视频服务器发送完整的视频数据到接收端。然而,观看者仅对视口内的图像可见,视口外的视频内容浪费了大量的传输带宽。因此,视口
现如今随着科技的不断发展,在社会的发展历程中,数据扮演越来越重要的角色。海量数据的利用对于生活或者商业中构建合适的模型来预测特定的任务有很大的优势。所以,在社会实践应用中大数据无处不在,如生物医学领域的疾病数据,计算机视觉领域的图像数据,自然语言处理的文本数据的使用等。为了能够更好的挖掘数据潜在的价值,挖掘数据的技术成为了近段时间来的研究热点,如:聚类和推荐算法等。在机器学习和数据挖掘中,聚类是很
在低光照环境下,由于普通消费者拍摄的照片通常会受到相机抖动、传感器噪声等因素的影响,从而导致所获取到的照片质量不佳。经过图像增强处理后,能够使获取到的图片质量得到一定的改善,以达到与人们主观审美感受相一致的结果。虽然目前有一些图像质量评估指标,能够对经过图像增强处理后的照片进行质量评价,但是,这些评价指标没有经过人们的主观验证,不能仅凭此判定经过图像增强处理后的照片就一定符合人们的主观审美。针对该
近年来,物联网(Internet of Things,IoT)已经成为一个重要的研究领域。其中,智能空间结合了环境感知和机器学习,以智能方式向用户提供智能和定制服务。随着传感和通信技术的进步,物联网使得用户可以随时随地与任何事物进行连接,也由此产生了更多的用户服务。因此,实现准确、非侵入式和安全的智能交互成为了研究热点。如今,居住在智慧城市的人们的方方面面都与物联网息息相关,正因为如此,身份识别服
随着工业的快速发展,人们对产品的质量要求也越来越关注。产品表面缺陷检测作为生产过程中最重要的工序之一,它直接影响到产品质量以及用户体验。产品在生产过程中往往会出现一些缺陷,这些缺陷具有一定的随机性,缺陷类型、形状大小各异。传统的人工检测虽然方法简单,有些缺陷的特征不够明显,利用人眼难以识别,检测误差较大,并且效率低下;现有的机器视觉方法能够实现自动检测,但其核心算法需要人工提取特征,存在选取特征不
图像检索是指将待查询图像与候选图像进行相似度比较,找出与查询图像相似或相关的图像。随着图像数据的海量增长和深度学习的快速发展,基于内容的图像检索吸引了越来越多的研究者。一方面,该课题对计算机视觉领域的其他任务(如行人重识别、图像分类等)有积极的促进作用,另一方面,该课题在实际应用中(如电商平台通过图像查询商品,安防等)也发挥了重要的作用。近年来,基于深度学习的图像检索方法取得了良好的效果。然而,图