基于上下文匹配的知识驱动对话生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和人工智能技术的飞速发展,对话系统已经被广泛应用于现实生活中,而满足陪伴需求的开放域对话系统,有着较为深远的研究价值和广阔的应用场景。现有的开放域对话系统,虽然关注了生成回复的流畅性和内容的相关性,但是整体结果离用户满意的程度还有待提高。知识驱动的对话生成目的在于根据给定的对话历史,生成符合语境的回复,现有考虑嵌入外部知识的对话生成模型存在着使用知识不正确,生成质量差的问题。针对上述现状,本文以知识选择和回复生成作为研究要点,并做出了以下工作和研究成果。知识选择是知识驱动的对话生成系统的第一个子任务也是最关键的子任务。知识选择的效果大大影响了回复生成的质量。知识选择任务又可以分为知识召回和知识筛选两个部分。传统的基于词汇匹配的知识召回方法虽然有一定的效果,但是总体上略显不足。本文提出一种基于上下文匹配的方法,首先进行基于实体链接的知识召回,并在此基础上使用基于语义匹配方法对知识进行进一步筛选。相比传统基于词汇匹配的方法,借助实体识别以及语义匹配的方法在知识选择的准确率和召回率上有了较大提升。在Kd Conv数据集的知识筛选任务中,基于实体链接的方法在MAP,MRR,P@1,R@1,R@2和R@5等指标上都超过了基于词汇匹配的方法。回复生成是知识驱动的对话生成系统的第二个子任务,也是最终的目的。根据是否将知识选择和回复生成分开训练可以将模型分为两段式模型和联合训练模型。两段式模型存在两个问题:1)回复的内容没有办法对知识选择模块产生影响;2)知识选择模块硬性地选择了若干知识,存在级联误差以及阈值选择困难等问题。而联合训练方法能够将知识选择和回复生成进行联合训练。然而,即使在联合训练的模型中,知识选择的准确率还有待提升。除此之外,候选知识之间的偏序关系也被现有的方法忽略。本文提出一种基于语义匹配的联合训练对话生成模型,使用语义匹配模块作为知识选择模块,并引入排序学习算法对知识选择模块进行优化,使得知识选择的准确率ACC提升了10%,进而回复生成的效果也有较大的提升。该模型生成的回复在BLEU指标上的效果超过了现有模型。
其他文献
随着深度学习的发展,基于卷积神经网络(Convolutional Neural Network,CNN)模块和注意力机制的深度学习算法成为工业界与学术界的研究热点,其为不同领域中的任务都带来了新的解决方案。人群计数作为计算机视觉领域的研究热点,亦是如此。但现有算法所设计的CNN模块对小尺度目标不友好,也难以高效地提取多尺度特征,且所得特征图较为模糊;相应的注意力机制不够完善,仅关注空间维度的注意力
学位
个性化广告推荐是广告生态系统中的重要环节。通过深度学习等技术可实现精准的个性化广告推荐,但此过程中收集和使用到的大量用户数据也不断引发着重大的数据安全和隐私泄露问题。随着各类隐私保护政策及法律法规的不断发布,以及个人用户隐私保护意识的不断提升,对隐私保护前提下的广告推荐方法的研究变得越发重要。为了在广告生态系统的数据交互过程中保护用户隐私,本文分析了广告生态系统中各主体(如用户、媒体、广告主等)的
学位
目的:研究急性白血病患儿化疗后发生突破性真菌感染(Breakthrough Invasive Fungal Infection,BIFI)的危险因素,分析发生BIFI与患儿预后的相关性。方法:收集安徽医科大学第二附属医院儿童血液肿瘤科2015年1月至2020年8月收治的急性白血病患儿病例资料(年龄、性别、危险度等)和住院期间感染情况(广谱抗生素使用种类、粒细胞缺乏天数、红细胞输注、黏膜炎等),其中
学位
近年来,数字水印技术作为多媒体版权保护和内容认证的有效手段,已经得到了广泛的研究和应用。传统的数字水印技术会对原始图像造成一定的损坏,然而在一些对数据要求比较严格的领域(例如法律、医学和军事领域),既需要数字水印技术来进行内容保护,又不允许对原始图像造成任何不可逆的损坏,所以产生了可逆水印技术。可逆水印技术不仅可以像其他水印技术一样完整的提取出水印信息,还能无损地将图像恢复到原始状态。可逆水印技术
学位
目的探讨应用外源性硫化氢(Na HS)对肥胖小鼠体质量、脂代谢影响。方法选用雄性C57BL/6J小鼠建立DIO小鼠模型,模型构建成功后根据干预时间不同,将低脂饮食和高脂饮食喂养的的小鼠分别随机分为四组,在各组内根据选择的干预方式的不同再随机分为四个亚组,分别为低脂饮食对照组(A组)、饮食致胖(diet-induced obesity,DIO)模型对照(B组)、50umol/(kg·d)Na HS治
学位
背景越来越多的研究将人类及其宿主细菌定义为一个整体,证明整体之间的交流超越了肠道,肠道中的微生物群与肝脏疾病、过敏、糖尿病、自身免疫性关节炎甚至神经系统疾病有关。肠道微生物群在调节大脑功能方面至关重要。出生后早期新生儿的大脑发育迅速,肠道菌群早期定植期间的不平衡,能够通过免疫反应和神经元分化的异常改变,影响的新生儿大脑的正常发育。短链脂肪酸,是肠道细菌通过底物发酵后产生的代谢物,可以明显有效地影响
学位
形状在生活中处处可见。它是对象在移除了平移、缩放和旋转等效果后保留下来的几何属性,在医学诊断、生物信息学和生物识别学等科学领域中有着广泛的研究价值。弹性形状分析通过引入平方根速度函数作为曲线形状表示解决了形状分析中的三个关键问题,即形状表示、形状度量和形状配准,成为了分析曲线形状的有力工具。实际上,一些非曲线数据可以通过某种方式转换为曲线数据,从而利用弹性形状分析的优势解决原领域中的一些问题。因此
学位
在互联网日益发展的社会,人们愈发倾向于在社交媒体上发表看法和立场,由此而产生的社交媒体文本信息具有重要的研究价值。超大预训练模型GPT-2被提出以来,通过“提示”下游任务来训练语言模型的方法越来越受到研究工作者的关注,它用插入提示模板的方式,将文本分类任务转化为等效的完形填空任务。然而在立场检测任务的研究领域中,还没有基于提示学习的算法出现。立场是文本作者表露出的对于特定目标的认识或处理问题时所持
学位
目的:在世界范围内,日益普遍的肥胖和生活方式的改变已使非酒精性脂肪肝(NAFLD)成为未来十年最普遍的肝病。NAFLD不仅会导致肝硬化和肝细胞癌,而且与肥胖、2型糖尿病、心血管疾病和血脂异常一起作为代谢综合征的组成部分。因此,其相互的因果作用给患者和社会带来了巨大的健康和经济负担。非酒精性脂肪肝(NAFLD)在肥胖儿童中发生率较高,且危害大。本研究通过分析肥胖儿童的相关临床指标,探讨肥胖儿童发生非
学位
通过在线广告进行流量变现是大多数移动端应用和网站的商业模式。精准的广告推荐可以改善用户的使用体验,并且广告主也可以利用在线广告投放更好地推销自己的产品。但是,针对每点击计费模式的广告点击欺诈对移动在线广告的发展产生了极大的危害,严重影响了移动广告生态环境。如何区分虚假点击与真实用户点击,是广告平台需要解决的重要问题。本文围绕移动广告生态环境中的点击欺诈问题,从服务端和移动端角度对欺诈检测技术进行研
学位