基于序列到序列模型的生成式文本摘要研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:Cantarali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,网络数据资源,尤其是文本数据,呈指数倍增长。研究如何利用计算机从文本中抽取、压缩信息,帮助用户快速准确地掌握信息的关键主体,节省用户的阅读成本,即文本自动摘要技术,在当下显得格外重要。文本自动摘要是自然语言处理中的经典问题。研究方法可分为两类:抽取式文本摘要和生成式文本摘要。抽取式文本摘要,即提取原文本的关键片段,拼接产生关于原文的摘要。而生成式文本摘要的目的是研究如何生成接近人类书写风格的摘要内容,这是一件困难的事情。随着序列到序列模型框架的提出并被广泛地应用到如机器翻译、对话系统等各类自然语言处理任务中。该方法也为文本自动摘要提供了全新的研究思路。然而,目前序列到序列模型在文本摘要任务的应用中仍然存在着诸多问题,本文针对这些问题对算法进行改进,从而提高模型生成摘要的质量。主要工作包括如下几方面:针对生成式文本摘要任务,本文构建了一个基于序列到序列的基准文摘模型。其以循环神经单元作为编码、解码器,且包含注意力机制;针对摘要中的未登录词(Out of Vocabulary,OOV)问题,实现了指针-复制网络;在解码过程,应用了集束搜寻算法,从而快速生成高质量的摘要。针对基准模型在训练过程中,因语料的词频不均而导致的训练不均衡问题,本文提出了基于多维特征优化的文本摘要模型。在模型的输入端,构建了多维特征编码器,对原文的多种语言学特征进行编码,从而提高模型输入信息的鲁棒性。在输出端,利用词焦点损失函数计算解码器预测的标签与真实标签的损失值,从而改善类别不均衡问题。在TTNews和LCSTS两个中文数据集上的实验结果表明,基于多维特征优化的文摘模型能在仅增加少量模型参数的情况下,提升模型生成摘要的质量。基准模型的对齐注意力机制是为解决机器翻译任务的原译文对齐问题而提出的。但是,它不符合文本摘要任务对原文重要信息概括的要求。为此,本文分别基于门控循环单元和多层膨胀门控卷积网络,构建一种新型的全局注意力机制。其能保证解码时,生成的注意力分布能反映单词在原文中的重要程度,帮助模型更好地适应摘要任务。在LCSTS和English Gigaword中英文数据集上的对比实验结果表明,改进模型的注意力分布比基准模型更广泛,可涵盖更多的源信息,生成的文摘质量也更高。
其他文献
社会工作参与到犯罪矫治体系中不只是有矫治功能,从犯罪人员的审前调查、审判、服刑到释放这整个的司法矫正过程,这各个阶段都需要社会工作介入。社会工作者介入到法院刑事案
清代的地方职役繁多,设有保甲、里甲、总甲、乡约等社会组织,他们是维护地方政权,实行国家治理的重要组成部分。清代总甲在地方州县城乡广泛设立,但其并非正役,而是杂差小役,
厘清事实认识错误的理论问题,对司法实践中解决其定罪量刑有着至关重要的作用。所谓事实认识错误指行为人在故意实施某行为的过程中,对客观方面的事实存在不正确的认识,并且
随着司法实践中商标共存的不断适用,我国关于商标共存的理论探究也越发深入,不乏学者建议在商标法体系中构建商标共存制度,与先用权规定契合,也符合通过商标共存解决权利冲突
“通知-删除”规则对网络服务提供者和相关权利人都具有重要意义。现有的“通知-删除”规则未能对“及时”作出准确界定,本文试图从制度价值、相关立法进程、司法案例实证分
随着社会的不断进步和社会福利保障体系的逐渐完善,孤儿作为社会上的一个特殊弱势群体,得到了广泛的关注。国内外有较多的学者对孤儿进行了大量的研究,发现孤儿在成长的过程
随着科学和社会“一体化”进程的加快,科学日益改变自主自治的发展状态,其社会应用渐渐成为政府、高校以及企业关注的重点,过去的科学研究日益掺杂强烈的应用动机和利益目标
煤矿通风系统和瓦斯防治一直是煤矿安全领域研究的重点。良好的通风系统是保障煤矿安全的关键之一,而瓦斯事故是煤矿井下所有的灾害事故中影响最大、人身伤亡最严重,同时发生
互联网技术和服务的发展极大拓展了人们生产生活的广度和深度,用户在海量Web服务中很难找到适合自己的服务,使得Web服务的个性化推荐成为服务计算领域最重要的挑战之一。当前很多研究和技术基于客户端QoS产生推荐,但缺乏考虑在服务调用矩阵数据稀疏下服务端功能属性和用户地理位置对推荐结果的影响,针对此问题,本文做出如下工作:首先,构建基于文本信息挖掘的Web服务功能相似度计算模型,并基于该模型进行服务聚类
在生物,信息,医学研究中,不仅要关注自变量自身对响应变量的作用,同时还关注变量间的交互作用对响应变量的影响.并且交互项需满足遗传约束条件,即只有当主要项存在时交互项才