基于双层注意力机制的对联下联生成方法研究

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:a20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对联是一种独具特色且历史悠久的中国传统艺术,对联的艺术形式严谨,要求上下联字数相同,语义相对,语调的平仄协调。随着深度学习在自然语言领域中的发展,针对汉语的文本生成任务也得到了更多的关注,其中,中国传统对联的下联生成任务是一项极具创新性的研究。与对话系统、机器翻译、诗歌生成等任务不同,下联生成任务不仅需要得到有效的输出,更需要输出下联与输入上联之间满足字数、语义、语调等要求。现有下联生成方法存在如下问题:在嵌入阶段普遍使用“字”嵌入而导致词语天然语义丧失;对联内部对应程度欠佳;未对低频词进行处理等问题。为解决该问题,论文基于神经网络和机器学习中的相关技术进行研究,对“词”嵌入后的对联本文进行了重划分,并对基于Attention的传统Seq2seq框架进行了算法改进,然后利用聚类和支持度计算等方法对低频词进行了处理。论文使用中国对联数据集作为实验数据,使用BLEU值、困惑度和人工打分等方法作为评价指标,对比得出论文所提方法较现有方法在不同评价指标上的表现均有优势。主要贡献如下:针对现有方法普遍使用“字”嵌入而导致词语丧失天然语义的问题,论文对基于“词”嵌入的n对n下联生成问题进行研究:(1)分析了“词”嵌入方法在实现n对n输出时难以满足字数要求的问题。针对字数一致难题,提出了一种最小共有和数的语料重划分方法。语料重划分方法将传统的“词语-语料”双层文本结构转化为“词语-短语-语料”三层文本结构,使得新型文本结构既在词语层上保留了词语的语义,又在短语层上实现了短语的一一对应,进而满足模型实现n对n输出的要求。(2)针对对联内部对应程度欠佳的问题,论文对传统文本生成模型进行了改进。首先将双层注意力机制(Hierarchical Attention,HAN)应用在文本生成问题上,并设计了Seq2seq框架中嵌入双层注意力的变量传递过程;然后引入联合学习方法来增强对联内部各词语、各子句之间的对应程度。实验结果表明,双层Attention比单层Attention忽略不相关信息的能力更强,引入联合学习后极大的增强了模型的泛化能力,对联内部的对应程度有所提升。(3)针对低频词导致的生成下联质量低下问题,论文提出了一套低频词的处理方法。首先设计了融合双重分词和迭代反馈的低频词处理方法,方法共包含候选共现集构建和UNK映射两个阶段,候选共现集构建阶段用于保存低频词与替换词之间的映射关系,UNK映射阶段利用这种映射关系来获取替换词。然后设计了NCW-CTF指标,用于评价不同替换词与低频词的共现程度。实验结果表明,论文提出的低频词处理方法能够改善低频词的生成效果,从而使得模型生成下联的质量大大提升。
其他文献
钙钛矿太阳能电池的实验室最高效率已经超过25%,但是溶液法制备钙钛矿薄膜的过程中容易产生大量的点缺陷和晶界,且传输层/钙钛矿界面附近的缺陷密度甚至比钙钛矿薄膜内部的缺陷密度大一到两个数量级,限制了效率的进一步提升。噻吩作为路易斯碱可以钝化钙钛矿表面和内部未配位的Pb2+缺陷。钙钛矿太阳能电池各层之间的能级匹配程度也会影响载流子的传输,噻吩类分子具有类似苯环结构的共轭性,有利于提高传输层的导电性和界
学位
作为仿生/智能新材料领域的重要组成部分,智能水凝胶能够感知外部环境的变化,并将外部能量转化为机械能,因此在软体机器人、软体驱动器等领域受到广泛关注。然而,智能水凝胶为基底的软体驱动器由于其高含水量导致力学性能差、驱动力小,并且智能水凝胶只能对单一的外界刺激产生响应,这些问题都是制约智能水凝胶驱动器的实际应用和未来发展的主要因素。目前报道的水凝胶驱动器大多制备流程复杂,很难兼顾优异的机械性能和多响应
学位
阴离子染料在纺织印染行业的广泛应用导致大量含阴离子染料工业废水的产生,严重危害自然环境和人体健康。在众多阴离子染料处理技术中,吸附法因其高效简便而备受青睐,吸附材料的选择是实现其吸附效果的关键。纤维素是一种储量丰富的天然材料,但其存在大量分子间氢键,吸附性能不佳。因此,选择合适的功能材料改性纤维素,对提升其阴离子染料吸附性能,实现其高效应用极其重要。基于此,本论文以天然纤维素为基材、以含有大量活性
学位
方型直线导轨作为装备机器的核心零部件,伴随装备制造业的快速发展,对导轨的直线度要求不断提高,而矫直回弹技术是提高其直线度的关键技术被广泛研究。由于方型直线导轨的截面并非传统规则的形状,异形截面形状对导轨正面矫直与侧面矫直过程产生不可忽视的影响,同时直线导轨普遍长度为1-4米,其自身重力也会影响矫直载荷。故此本文在考虑方型导轨自身重力及异形截面的前提下,对导轨矫直回弹技术进行理论分析研究,构建正矫以
学位
磁共振成像(Magnetic Resonance Imaging,MRI)是利用磁共振原理,从物体或组织中采集电磁信号后重构出图像的成像方法。MRI有着成像分辨率对比度高、安全性较好等诸多优点,因而在临床检查和诊断中得到了广泛使用,帮助了无数医生和患者。然而,MRI检查的时间过长,且要求患者在此期间不能活动,这对一些特殊患者是不现实的。传统的MRI重构方法包括并行成像和压缩感知,而这些方法或需要提
学位
马克思主义理论博大精深,马克思主义刑罚思想在其中占据着举足轻重的地位。尽管马克思、恩格斯本人非专业刑法学出身,甚至没有出过一本专门针对刑罚的著作。但是,他们在论及刑罚问题时,对刑罚问题的阐述却是鞭辟入里,发人深省,并且成为后世许多马克思主义者的重要研究对象。在论文的基本架构上,本文首先梳理总结了国外马克思主义刑罚思想。这一部分笔者从经典的马克思、恩格斯的刑罚思想切入,进而梳理分析了列宁的刑罚思想。
学位
水下仿生机器人是人类探索海洋、利用海洋的一个重要工具。真实的水下环境是一个复杂多变且建模困难的动态环境,尤其是在海底狭窄洞穴、珊瑚礁、海底暗流等复杂环境下,对水下仿生机器人的游动稳定性提出了很高的要求。本文以自然界中的河狸为研究对象,设计制造了仿河狸单腿机器人、仿河狸双足游动机器人。并且,以此为运动控制平台,结合强化学习、深度强化学习算法,在不建立关于仿河狸游动机器人复杂运动控制与水动力模型的情况
学位
随着乘客电梯服务年限的增加其运行性能会逐渐下降,对乘客电梯开展性能评价,可有效降低电梯事故,避免重大经济损失甚至人员伤亡的发生。电梯现行的标准和规范主要凭借日常维保和定期检验来确保电梯的运行性能。维保和检验的条目中存在的定性指标较多,无法量化电梯的运行状态,且当前对所有电梯采用相同的检修间隔,检修缺乏针对性。基于电梯运行状态数据开展性能评价逐渐成为研究热点,开展电梯性能评价对降低电梯事故率、提高乘
学位
近年来,随着绿色理念的普及,消费者开始思考如何有效处置闲置服装。在此背景下,能够为消费者提供服装交易服务的二手闲置平台,受到消费者的追捧,在全球范围内获得爆发式增长。然而,在二手闲置平台蓬勃发展的同时,平台质量问题频频爆出,如,售后服务不佳、服装售假、安全机制未健全等等,导致用户消费信心降低。因此,如何打造高质量的二手闲置平台,重建用户信心,促进二手服装交易,成为现阶段亟待解决的问题。基于此,本研
学位
目前,由光学腔与机械振子组成的系统是研究最多的量子光学系统之一,该系统在科学技术的许多领域得到了广泛的应用,特别是在非线性光学、量子光学和光信息储存等学科领域具有实际应用价值。一般情况下,机械振子不可避免地与周围的热环境耦合,环境中的热噪声掩盖了它的量子力学行为。因此,对机械振子进行量子基态冷却是观察量子非线性现象的必要条件,如量子态的叠加、压缩和纠缠。在本文中,我们以机械振子的基态冷却为主,研究
学位