论文部分内容阅读
新世纪以来,信息技术尤其是人工智能的技术得到了飞快的发展,人们可以随时随地通过手机、平板电脑等智能设备获取信息服务。企业人工客服的数量已经不能满足越来越多人对获取信息的需求,智能客服系统的目标就是让用户能够通过自然语言的方式与计算机友好的交互来获取信息,以此减轻人工客服的压力。为了更精准地回答用户的问题,企业通常会整理经常问到的问题(Frequently Asked Questions,FAQ)数据集,FAQ数据一般包含标准问题以及标准问题所对应的答案。通过对用户的问题与标准问题计算相似度,返回给用户最相近的标准问题所对应的答案,用户咨询信息的需求得到满足。随着用户问题不断地积累,企业往往会把这些历史用户问题与标准问题的映射关系记录下来。对于有历史用户问题的FAQ数据集,当前的方法主要分为两类。第一类是把标准问题作为标签,通过利用历史用户问题进行句子表示,构建分类器选择标准问题所对应的答案。第二类是计算历史用户问题和标准问题之间的语义距离来获得最佳答案。这两类方法都得到了广泛的研究与应用,但同时也存在以下问题:一是针对FAQ问题长度一般较短、上下文信息缺失、语法结构缺失等问题,当前的方法不能很好地解决;二是分类方法无法使用标准问题本身的信息,而匹配方法面临负样本获取的难题。对于第一个问题,本文设计了宽度神经网络联合分类模型。该模型将基于字粒度的卷积神经网络(Convolution Neural Network,CNN)和基于词粒度的双向长短期记忆网络(Long Short Term Memory Networks,LSTM)结合构建分类器。模型不仅能够很好的捕获短语特征、语法特征等,还能很好的学习时序特征,很大程度上缓和了上下文信息缺失等问题。对比其他模型,本文提出的联合分类模型在某企业真实客服数据上取得了最好的效果,同时该模型也投入了该企业使用。对于第二个问题,本文设计了联合分类与匹配的模型。该模型有效的将分类方法和匹配方法进行结合,不仅能选择真正需要区分的负例并且能够将标准问题的信息进行有效利用。通过共享词向量的方式,历史用户问题在做句子表示构建分类器的同时,也会和标准问题的句子表示进行度量计算。对比当前的很多模型,该模型在中英文数据集上都表现出了最好的效果。基于上述两类模型,本文设计并实现了FAQ问答系统。系统包含五大模块:FAQ库管理模块、FAQ答案计算模块、Web设计模块、反馈模块、日志模块。系统的主要功能有:用户选择模型进行交互、用户反馈、日志记录等。