论文部分内容阅读
随着互联网技术的发展和信息量的迅速增长,人们迫切需要一种准确、高效的信息获取方式。从搜索引擎到智能交互式问答系统,信息的获取方式越来越接近于自然交互。一方面因为海量数据的出现,另一方面因为机器学习和自然语言处理等技术的长足进步,问答系统进入了面向各领域、基于自由文本和异构信息、基于生成式的智能交互式问答发展阶段。与搜索引擎不同的是,用户无需在多条候选文档中选择,问答系统能更好的理解以自然语言形式描述的问题,同时返回简洁精确的答案。随着Siri和Watson的成功问世,智能交互式问答系统成为了近年来的一个研究热点,在商业领域也越来越具有代替人工客服的潜力。然而,要构建更加智能的交互式问答系统,从已有的客服日志中学习知识就显得非常重要,而如何从复杂的交互式问答客服日志中识别问句与答句之间的匹配关系以及连续语句之间的补充关系则成为了构建学习系统的关键。本文主要针对交互式问答中的语句匹配关系识别和补充关系识别进行了研究。针对客户问句与客服回答之间的匹配问题,本文分别构建了基于CNN的语义匹配模型和基于RNN的生成模型,模型的输入层是句子的词向量矩阵,输出层是问答匹配的置信度。分别在Semeval-2016社区问答数据和在线客服对话数据上,进行了不同模型的性能对比。同时对问句的完整性、生成模型的不同结构、阈值选择以及客服数据的抽取方式等进行了对比实验分析。实验结果表明,在社区问答数据中,本文中基于CNN的匹配模型优于RNN生成模型;在客服对话数据中,基于RNN的序列学习模型能够更好的学习到场景对话中的上下文信息。在基于每轮对话且问句完整的数据上,MAP达到了84.41%。针对交互式问答中连续语句之间存在的上下文相关联的潜在语义补充关系,本文研究了句子补充关系的识别。在深度模型上,构建了并行CNN和串联LSTM对句子对进行抽象语义特征提取和建模。分别采用支持向量机、基于CNN的模型和基于RNN的模型,对句子对的补充关系进行分类。实验结果表明,基于CNN的识别方法优于其他对比方法,其F1值达到了67.8%。最终,将补充关系识别和匹配关系识别相结合应用于交互式问答语义匹配。