联合分类与匹配的FAO问答模型的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:hbliuzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新世纪以来,信息技术尤其是人工智能的技术得到了飞快的发展,人们可以随时随地通过手机、平板电脑等智能设备获取信息服务。企业人工客服的数量已经不能满足越来越多人对获取信息的需求,智能客服系统的目标就是让用户能够通过自然语言的方式与计算机友好的交互来获取信息,以此减轻人工客服的压力。为了更精准地回答用户的问题,企业通常会整理经常问到的问题(Frequently Asked Questions,FAQ)数据集,FAQ数据一般包含标准问题以及标准问题所对应的答案。通过对用户的问题与标准问题计算相似度,返回给用户最相近的标准问题所对应的答案,用户咨询信息的需求得到满足。随着用户问题不断地积累,企业往往会把这些历史用户问题与标准问题的映射关系记录下来。对于有历史用户问题的FAQ数据集,当前的方法主要分为两类。第一类是把标准问题作为标签,通过利用历史用户问题进行句子表示,构建分类器选择标准问题所对应的答案。第二类是计算历史用户问题和标准问题之间的语义距离来获得最佳答案。这两类方法都得到了广泛的研究与应用,但同时也存在以下问题:一是针对FAQ问题长度一般较短、上下文信息缺失、语法结构缺失等问题,当前的方法不能很好地解决;二是分类方法无法使用标准问题本身的信息,而匹配方法面临负样本获取的难题。对于第一个问题,本文设计了宽度神经网络联合分类模型。该模型将基于字粒度的卷积神经网络(Convolution Neural Network,CNN)和基于词粒度的双向长短期记忆网络(Long Short Term Memory Networks,LSTM)结合构建分类器。模型不仅能够很好的捕获短语特征、语法特征等,还能很好的学习时序特征,很大程度上缓和了上下文信息缺失等问题。对比其他模型,本文提出的联合分类模型在某企业真实客服数据上取得了最好的效果,同时该模型也投入了该企业使用。对于第二个问题,本文设计了联合分类与匹配的模型。该模型有效的将分类方法和匹配方法进行结合,不仅能选择真正需要区分的负例并且能够将标准问题的信息进行有效利用。通过共享词向量的方式,历史用户问题在做句子表示构建分类器的同时,也会和标准问题的句子表示进行度量计算。对比当前的很多模型,该模型在中英文数据集上都表现出了最好的效果。基于上述两类模型,本文设计并实现了FAQ问答系统。系统包含五大模块:FAQ库管理模块、FAQ答案计算模块、Web设计模块、反馈模块、日志模块。系统的主要功能有:用户选择模型进行交互、用户反馈、日志记录等。
其他文献
针对传统单并网逆变器采用滞环空间矢量控制时,在交流侧存在电流谐波总畸变率(Total Harmonic Distortion,THD)相对较大的问题,提出一种新型LCL滤波器对双频并网逆变器输出电流进
为了提高逆变器并联运行的鲁棒性、抑制环流的产生以及实现功率均分,采用电流下垂控制策略,通过调节并网逆变器的输出的电压频率和幅值来控制其输出的有功电流和无功电流,减
沈从文的文学创作,大都围绕“生命”二字展开,其艺术的全部归宿,就是探索和表现各种生命形式,用笔捕捉它们的光影。在小说《边城》中,作者由“自在”到“自为”的各种生命形态,得到
徐州重型机械厂自主开发的QUY50履带起重机,在试制期间起升机构曾发生故障不能运转。该起升机构采用行量减速机,制动器采用片式常闭式制动器,制动器的完全开启压力为1.5-2.0MPa
随着农业现代化进程的不断推进和城镇化水平的进一步提高,肥东县粮食规模化生产成为必然趋势。本文从肥东县粮食规模化生产的发展现状出发,分析了存在的问题,并提出了相关建
<正>苏霍姆林斯基曾经说过,在社会面前,人的责任和对神的最重要的义务,就是教育自己的孩子,孩子的首席教育者,第一任教师,就是母亲和父亲。可见,家庭教育对于孩子来说是至关
会议
渔业行政执法工作是我国社会主义市场经济条件下,行政执法工作的一个重要组成部分。也是我们渔业行政主管部门的重要职责。多年来,渔业行政管理者始终遵循&#39;以法兴渔、强
介质埋藏天线可避免传统覆盖天线裸露在空气中受到氧化腐蚀等问题,同时增强了天线的隐蔽性、减小了天线的尺寸,扩展了天线的带宽、天线波束变窄,有助于提高天线的增益。使用
采用固相微萃取法提取,利用气相色谱-质谱法对冰鲜牡蛎中挥发性物质进行分离鉴定。结果表明,利用该方法鉴定出的冰鲜牡蛎的挥发性物质共有39种,主要挥发性物质有己醛、1-辛烯
新版《国家学生体质健康标准(2014年修订)》与《2007版国家学生体质健康标准》相比,主要有四个变化:其一测试小组,从原来的两个年级为一组改为一个年级为一组,这样使测试结论更完整