结合多种策略的文本语义匹配方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kinganguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,企业对智能客服的需求越来越旺盛。传统交互中客户需要和多个部门打交道,低效、成本高,未来交互可以通过智能客服系统来快速准确地过滤用户的大部分需求,从而减少对人工的依赖,可节省大量成本。大多数智能客服系统结合知识库来实现检索式问答系统(rQA),检索式问答系统常包含问题预处理模块,检索模块,匹配-重排模块等。文本语义匹配模型排序结果的优劣对智能客服用户的使用体验有很大影响。然而对于面向特定领域的智能客服系统而言,一方面,传统的文本语义匹配技术往往基于特征工程,很难迁移到其他领域中;另一方面,在冷启动阶段领域内人工标注的训练数据有限,如何在小语料的情况下提高意图识别的准确率,并随着标注语料的增多回答准确度不断提升,成为目前研究的热点,也是本文的主要研究内容。在深度学习建模的文本语义匹配模型中,一般分为基于句子表示和基于句子交互的深度学习模型。在这两种方法的基础上,我们提出一种基于门机制与残差连接的多层文本语义匹配模型(Densely-connect Fusion Attention Network,DFAN)。通过借鉴长短期记忆单元(LSTM)的门控机制思想,在句子交互前引入了输出门和遗忘门,改进之前方法对于自身所在句子词与词关系的建模不足的问题。受深度残差网络(ResNet)的启发,我们重复网络中的某些子结构并采用残差连接,使模型能进行不同粒度语义的交互。此外,通过控制隐藏层单元的大小,网络的参数相对于其他模型总参数并没有增多,但获得了更深的深度。我们在3个不同任务的英文数据集上进行了实验和分析,其中在SNLI,Quora Question Pairs测试集上准确度分别达到目前最好的88.8%和89.51%。针对特定领域检索式问答系统冷启动阶段训练语料有限的问题,论文提出了两类策略辅助模型学习,分别是基于迁移学习的方法和基于多任务学习的方法。对于前者,我们还尝试了4种不同的迁移方法,分别是基于源任务训练到目标任务微调的方法,基于源领域训练到目标领域微调的方法,基于特征迁移的方法和基于领域对抗迁移的方法。本文在来自民生领域的实际应用中分别进行了小语料情况下的线下测试和线上评估,实验表明结合多种策略训练的文本语义匹配模型能分别在两者中达到最优,且通过P值为0.037的McNemar检验证明相比不结合策略的方法有显著性提高。最后我们还展示了提出的文本语义匹配模型应用到线上真实的智能客服产品。
其他文献
高增益是微结构气体探测器的主要性能指标之一,可以有效提高探测器的信号噪声比,是微结构气体探测器发展的一个重要方向。本次实验的主要目的:验证了 THGEM-MICROMEGAS探测器设计方案的可行性。通常采用多个探测器级联的工作模式得到较高的增益。本文的主要工作是设计了微感应区THGEM的新工作模式。即将THGEM探测器的感应区间距减小同时在感应区加强电场形成THGEM和MICROMEGAS两级放大
生物质的催化气化作为生物质能源化利用的新一代气化技术,具有很高的能源应用价值和发展前景。研究表明,烘焙可以减少生物质在催化气化过程中焦油的形成,因而可以减少镍基催化剂表面上积碳的形成。淀粉类厨余的成分与生物质类似,故此对淀粉类厨余先进行烘焙预处理再进行催化气化,不仅能够减少积碳的形成,还能进一步提高合成气的质量。本文主要对原样进行烘焙预处理后再进行催化气化,研究烘焙温度及催化剂对产气特性的影响。首
逆电渗析(RED)是基于膜的将溶液的盐差能转换成电能的技术。在RED电堆中,一般采用不传导离子的聚合物隔网对相邻的离子交换膜进行分隔,由此形成供溶液流动的通道。隔网的存在虽然可以增强溶液的掺混从而减小浓差极化,但也会带来一些问题:不传导离子的隔网直接覆盖在膜的表面,减少膜的有效面积;同时,使通道内离子的移动路径变得曲折,导致电堆的欧姆内阻增加。如果使用异形膜来替代传统的光滑膜与隔网的组合,则有可能
色光在科研、生产、生活中被广泛应用,如彩色电视成像系统空间分辨力检测、商场灯光渲染、投影等场合。随着对色彩应用要求的提高,对色光的色彩进行高精度控制是非常必要的。本文设计了复色光的色彩控制系统,开展了色彩控制技术相关的理论计算、方案设计、实验系统搭建和控制方法研究等四个方面的研究,具体内容如下:一、通过对色度学基本原理的研究,分析了颜色空间和颜色空间转换的特点,确定线性空间CIE1931 XYZ作
乌克兰是一个农业大国。国内粮食生产高度结合可持续的外部需求使乌克兰成为世界主要粮食供应国的一组国家。与此同时,国内粮食市场的出口因素很难夸大它,因为外部供应是利用
太赫兹波由于其在生物医学、安全检查、通信技术等方面潜在的应用价值,成为目前热门的研究领域之一,而太赫兹源技术是其中一个重要也是最基本的研究方向。非线性光学差频技术由于高效、高功率、精简的结构以及可调谐等优点,成为了研发太赫兹辐射源的一种重要技术,而如何实现差频过程中的相位匹配是一个关键问题。腔相位匹配(CPM)技术在近年来得以实验验证,并展现出在制备小型太赫兹源方面的潜在优势。而目前的研究报导中鲜
由于稀土化合物具有优异的光谱性质,而具有3d10电子组态的过渡金属Cd2+离子能够与有机配体之间通过能量传递而具有较好的发光性能,因此本课题选用含氮杂环羧酸类配体和镧系及
金属有机多面体结构的设计合成及其在传感、识别、催化、活性物种稳定化等方面的应用受到了科学家们的广泛关注。传统金属有机多面体由具有固定配位构型的过渡金属构成,其中
本文分别提出了圆形区域和球形区域上特征值问题有效的谱Galerkin逼近。对于圆形区域,我们提出了steklov特征值问题的谱Galerkin逼近和严格的误差分析。首先,我们利用极坐标变换和变量分离技巧把原问题化为一系列等价的一维特征值问题,而且这些一维的特征值问题是相互独立的,从而可以并行地求解。然后,我们推导了极条件并根据极条件引入了相应的带权Sobolev空间。结合正交多项式的逼近性质,我们
张量理论在数据挖掘与处理、神经网络、图像处理、化学计量和心理测量、物理学中的弹性分析等领域中有着不可或缺的作用.特别地,强?-张量的判定问题作为张量理论的一个组成部分在判定多元偶次齐次多项式正定性问题中起着至关重要的作用.然而,强?-张量的判定问题存在着诸多困难.因此,判定一个张量是否为强?-张量具有重要的理论意义和实际应用背景.本文主要研究强?-张量的判定问题.首先,给出一种新的强?-张量迭代判