基于深度学习的句子压缩算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:noegen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子压缩是将长而含有冗余信息的句子压缩成简短的语义表达的任务,简化文本结构,保留重要的含义和信息。随着互联网时代的发展,句子压缩成为越来越重要的任务之一。句子压缩技术大大减少互联网上的信息过载,尤其在屏幕空间有限的移动设备上应用广泛。但同样,句子压缩任务也面临着不小的挑战。当前的主流算法中,基于神经网络的压缩算法缺乏外部信息指导,并且对语句中跳跃性的长距离信息难以捕获;而使用基于规则的句法解析方式获得摘要结果会不可避免的产生解析错误。因此,对句子压缩任务进行研究具有重要价值。本文对句子压缩任务的基本模型与技术进行研究探索,对句子压缩任务的研究现状和存在问题进行了分析。本文以抽取式句子压缩为主要研究对象,从引入外部句法信息、进行辅助预训练等方面进行研究,主要工作如下:(1)针对神经网络缺乏外部信息指导的问题,本文利用句法依赖信息,实现了结合句法图卷积网络和序列到序列模型的抽取式摘要,并提出了平行化的新结构,该模型结合了两者的优点,实现了互补的效果。另外,为了减少句法图卷积网络中解析树的错误传播,本文模型在训练中动态调整依赖弧,优化了图卷积网络的构建过程。最后,针对数据集中存在的分类不平衡的问题,本文通过对压缩阈值进行调整实现了更佳的实验效果。实验表明,结合句法图卷积网络的模型在谷歌句子压缩数据集表现出色。(2)针对目标数据集规模较小的问题,本文提出了一种基于编解码器的迁移学习方法,不需要额外的资源,使用生成式句子压缩作.为预训练任务,结合了抽取和生成两种压缩方式的优势。该两阶段的训练方法在预训练任务和目标任务间共享特征表示和部分模型参数,提升模型对潜在特征提取的能力。同时,本文制定了新的微调方案,在两阶段的训练过程中对编解码器采用不同的优化器,避免两者之间训练周期的不匹配。实验表明,两阶段的训练方式使抽取式任务效果进一步提升。
其他文献
核桃(Juglans regia)是新疆南疆环塔里木盆地特色林果产业的主栽经济树种之一。长期以来,由于缺乏快捷、适时、无损的叶片营养元素诊断方法,使得南疆地区开展大面积树体营养
随着基于位置服务在移动网络应用领域的普及,用户一边享受着便利,一边也在面临着隐私泄露的风险。移动用户在使用基于位置服务时产生的大量数据具有鲜明的个人特征,攻击者很容易从基于位置服务的数据中挖出用户的家庭地址、职业和其他个人隐私。目前,轨迹隐私保护研究仍然是隐私保护领域的热点课题,具有很大的研究价值。现有轨迹隐私保护方法主要分为两方面:一方面是对发布所收集的轨迹数据时的隐私保护,另一方面是保护移动用
信息技术的高度发展使得无人机(Unmanned Air Vehicles,UAV)作战优势凸显。任务规划作为无人机研究领域的重要内容,主要由任务分配和航迹规划2个重要部分组成。其中,无人机的任务分配问题是在一定约束条件下搜索各无人机与任务之间的近似最优匹配方案;航迹规划是在特定约束条件下搜索从起始点到目标点的可行航线。基于无人机广阔的应用市场需求和优良的技术支持,本文主要研究静态环境下的集群无人机
二维(2D)材料由于独特的晶格结构、高载流子迁移率和良好的机械性能等优点,受到人们的广泛关注。然而,一些电子结构和物理性质的缺点限制它们在电子学器件中的实际应用。因此,探索其它具有理想物理性能的2D材料是十分必要的。二维单层SnO具有良好的抗氧化性和双极导电特性,引起人们的广泛关注。因此,本文基于密度泛函理论,研究单层SnO及异质结构的电子结构和磁性。首先,通过密度泛函理论计算了第四周期的过渡金属
无人机具有体积小、使用方便以及生存能力强等优点,广泛应用在军事、民用等多个领域中。军事领域无人机在执行任务过程中容易受到相对运动、成像设备、恶劣天气等因素干扰,使拍摄到的图像出现模糊、色彩失真等现象,严重影响了后期情报分析,因此需对模糊图像进行处理,提高图像质量。针对无人机侦察图像的实际应用问题,本文做了以下工作:(1)基于图像金字塔的多尺度空间构建。为了提高估计的模糊核精度、保存更多的图像边缘细
中国作为煤炭生产大国,煤炭在能源消费结构中占据重要的位置,随着中国“十三五”规划的提出,煤炭企业面临越来越多的政策调控,煤炭市场的竞争也越来越激烈。另外,煤炭企业可以保证每年利润的增长,很大程度上是依赖于生产设备及技术上的发展和改进,从普采到综采的发展,使得产量大幅提高,企业效益增加。但是从组织结构、管理制度等方面进行的研究相对较少,在当前的发展趋势下,积极调整生产结构,优化管理模式,实现企业变革
在我们党成立100周年之际、我国向着第二个百年奋斗目标奋进的起步之年,开展党史学习教育极为必要,正当其时。我们要认真学习领会习近平《论中国共产党历史》,弘扬红色传统,
近年来,随着互联网信息技术的普及和发展,信息的产生量成指数级增长。海量的数据使得用户很难高效地找到有价值的所需信息。推荐算法则是解决信息过载的一种有效方式。传统推荐算法主要关注用户静态兴趣和项目的二元关系,预测用户对于项目的感兴趣程度,推荐符合用户喜好的项目。这些算法依赖用户静态行为数据进行建模,忽略了用户兴趣可能随时间推移而变化,导致推荐结果缺乏时效性。因此,本文针对当前大部分推荐算法只能学习到
近年来,随着机器学习模型的日益成熟和在各领域的广泛应用,其存在的安全问题也逐渐显现。攻击者通过精心构造与真实数据差别不大的对抗样本,可以使机器学习模型做出错误的决策,这对机器学习应用造成了巨大的潜在威胁。尤其是在入侵检测领域,对抗样本可以躲避入侵检测模型的检测,导致系统遭受恶意攻击。但是目前针对入侵检测对抗样本的生成研究都忽略了样本中存在的特征约束,不满足特征约束的对抗样本很容易被检测出来而无法攻
目前,国内人口老龄化问题愈发严峻,因此,老龄化设计逐步受到设计行业乃至全社会的高度关注。在互联网逐渐发展更新迭代至5G时代,移动软件的运用范围逐渐拓展,在社会老龄化的趋势下,老年人也在受智能手机和移动应用的影响成为了移动应用服务的用户人群之一。目前在手机应用市场中,与老年用户相关的应用少之又少,大多数应用都是针对年轻人设计的。老年人有自己独特的生理、心理和认知特征。因此,老年用户的应用程序应该与年