基于深度上下文建模的检索式多轮对话研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:liubifeng1392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交媒体和互联网的普及和发展,对话系统因其极具潜力的研究价值和商业价值引起了学术界和工业界的共同关注。国内外科技行业公司纷纷发布了各自在智能对话领域的产品,如苹果Siri、微软小冰、亚马逊Alexa、百度小度、小米小爱同学、阿里巴巴的小蜜等。这些智能对话产品的出现,给数以亿计的人们的生活带来了极大的便利性。对话系统的目标是利用计算机技术实现计算机与人之间进行自然语言交流。端到端的聊天式对话系统一般分为检索式对话系统和生成式对话系统。生成式对话系统通过自然语言生成根据上下文输入生成回复。但是目前基于序列到序列的方法趋向于生成一些无意义或不流畅的回复。检索式对话系统一般会提供候选回复集,每次回复从候选回复集中进行检索筛选。相比之下,基于检索的对话系统能根据实际业务特点和需求设计出大量预定义的候选回复,这些回复往往自然流畅,语法正确,具有更好的信息度且更易于评估,因而被大量运用于目前的聊天机器人和人工客服。但检索式多轮对话的研究仍然面临着对话文本理解、语料匮乏和篇章结构建模等方面的困难。因此,如何进一步合理地将上下文信息进行深度建模成为了提升检索式多轮对话的关键。本文专注于检索式多轮对话为研究问题,针对对话文本的领域适应、交互性、逻辑性等挑战,从语言模型预训练目标、多轮对话交互建模、语篇结构建模等三个方面提出相应解决方案。首先为提升对话中的语义理解能力,基于对话文本的交互特性提出了领域适应的预训练策略下一轮对话预测目标。其次,在已有基于交互的方法基础上,结合预训练语言模型的优势,提出了检索式多轮对话任务适应的模型框架。在三个公开数据集上进行了实验与分析,验证了基于领域适应预训练和交互匹配的方法的有效性。另外,本文还在有限数据的场景下,对模型的表现进行了进一步的评估。实验结果显示,本文提出的模型在低资源场景下也能获得较好的结果,体现了所提出模型具有较好的实际应用意义。此外,多轮对话具有特定的篇章结构,这一特点是其区别于其他类型的文本的一个显著特色。在现有的检索式多轮对话方法中,对话篇章关系常常在建模时被忽略,这使得模型对对话上下文的整体语义建模不充分,进而影响对话的效果。为更好地挖掘对话篇章结构特征,建模对话逻辑关系,提升模型推理能力,本文提出了一种对话篇章关系感知的图卷积模型。该模型通过对对话文本进行语篇解析,并利用图卷积刻画话语之间的关系,对对话篇章关系进行建模。在对话推理数据集Mu Tual上进行的验证实验表明引入对话篇章关系能有效提升模型在对话过程中的推理能力。
其他文献
1953年,L.M.Gelfand和B.M.Levitan研究了如下的Sturm—Liouville问题: 其中q(x)是[O,π]上的有界可微函数。并证明了上述问题的特征值满足迹恒等式: sum from k=1 to ∞[λk-k2-1/π integral from n=0 to xq(x)dx]=-(q(O)+q(π))/4+1/2π integral from n=0 to
作为目前强关联电子系统的一个重要研究对象,Sr14-xCaxCu24O41具有奇异的结构形式和丰富的电荷与自旋有序的物理现象,对其深入研究,不仅有助于对其本身,而且将加深对包括高温超导在内的其他强关联电子系统的认识。本论文首先慨述了关于梯状化合物主要是Sr14-xCaxCu24O41的研究情况,然后从材料学和物理学两方面开展了下述研究工作: 1.借助于XRD和DTA技术研究了(14-x)Sr
在这个物质生活水平全面提高的时代,人们的压力也与日俱增,我们的生活环境很大程度上会影响我们的情感和心态,"治愈系"插画改善我们的焦虑、安抚我们的精神,在生活中通过其特有的方式抚慰人心。在"治愈系"插画中,"治愈"不是简单的中文释义,而是倾向于心理和精神上的释放和缓解,甚至被应用于艺术疗愈理论中。文章从接受美学出发,讨论"治愈系"插画的心理治愈机制,探析"治愈系"插画的风格特点。
随着时代的发展,移动互联网已经深度渗透到社会的各个领域。在大学校园里,大学生在空余时间利用各种英语学习APP提升英语能力已相当普遍,传统的英语学习模式正逐渐向"碎片化学习"转变。本文研究"碎片化学习"模式及其特点,基于大学生英语阅读现状,分析该模式对大学生英语阅读能力提升的正面及负面效应并提出相应策略。该研究有助于指导学生充分利用碎片时间,培养其自主学习能力和习惯,切实提高学生英语阅读能力。
C2H2型锌指蛋白家族是最大的转录因子家族之一,有文献报道人的基因组中C2H2型锌指蛋白基因的数量多达706个。锌指基序一般山21-23个氨基酸构成,其基本序列为:CX2-4CX3FX5LX2HX3-5H(X代表任意氨基酸),相邻的锌指基序间的序列往往都是高度保守的H/C连接肽(H/C linker):TGEKPYK。而在非锌指区域,C2H2型锌指蛋白中往往还有其他一些保守的效应功能域。根据所含效
DNA和RNA可以通过分子内的相互作用而自身折叠起来形成二级结构,这些二级结构的形成和稳定对于参与和行使一定的生物学功能具有非常重要的意义。由于在体内所具有的潜在功能,它们被认为是治疗癌症及其它疾病的药物治疗靶点。人的端粒DNA包含重复序列(TAAGGG)4组成的G链和(CCCTAA)4组成的C链。G链可以通过碱基G之间的氢键相互作用形成四重折叠结构,C链也可以通过质子化的C+和C相互作用形成四重
学位
安全多方计算允许一组互不信任的参与方在其各自输入上联合运行某个计算功能得到计算结果,而不会透露任何超出计算结果的信息,是现代密码学领域的一个重要研究方向。而随着人们对隐私的逐渐重视,安全多方计算在学术界、工业界和政府中有着越来越广泛的应用。从姚期智的“百万富翁问题”开始,用于安全多方计算的协议被研究和发展了数十年,已经诞生了非常多的优秀协议,并且基于这些协议构建出了可以执行任意图灵完备程序的通用安
在马克思那里,无产阶级是一个担负着历史使命的阶级。马克思以无产阶级概念为核心,创造了无产阶级革命理论并提出人的解放的伟大构想。无论是空想社会主义学者通过对资本主义社会的批判表达对穷苦大众的同情,还是古典政治经济学家从经济学的角度对阶级进行划分,又或是法国复辟时期的历史学家对阶级斗争的思考等,都被认为是马克思关于无产阶级思想的理论来源。更为重要的是,马克思对社会现实问题的思考更是为自己的无产阶级概念
边缘计算作为一种新兴的计算模式,可由移动用户将复杂应用程序产生的计算任务卸载到邻近的边缘服务器以降低本地资源开销的同时提高任务计算效率,满足用户对应用的服务体验质量需求。然而,在进行任务卸载的过程中,攻击者可以通过监测用户的任务卸载比例推测出用户的位置信息,同时,攻击者可以通过持续监测用户的卸载任务量推断出用户的设备使用模式,进而推测出用户的个人敏感信息(年龄、性别、职业等)。任务卸载中隐私保护机