论文部分内容阅读
智能问答系统是融合了自然语言处理技术、信息检索技术和语义分析的人工智能信息服务系统。智能问答系统采取一问一答的方法,通过处理与分析输入的语句,自动生成可靠准确的回复,并且尽可能的符合人与人之间日常交互的特点,为每位用户提供个性化的信息服务。智能问答系统赋予了计算机理解人类语句并做出响应的能力,具有适用范围广泛,使用方法简便等特点。然而由于对话的表达灵活多样,同时通过人们的生产生活,对话不断地增新。所以对计算机而言,使用传统的方法直接分析人类语句并做出响应存在着不小的技术挑战。现有的智能问答系统大多都只能实现简单的功能,无法在现实场景中发挥作用,此外在应答过程中还存在答非所问,应答场景有限等缺陷。随着人工智能技术和深度学习的快速发展,涌现出各式各样设计巧妙的神经网络,如卷积神经网络、递归神经网络、深度神经网络等,它们帮助研究者们在自然语言处理领域找到了新的突破口。为了解决上述问题,创建一个具有实际使用价值且应答流畅的系统,本文提出了一种基于深度神经网络的智能问答系统设计与优化方法。现有的智能问答系统多使用的是谷歌等线上开源语料库,然后再对语料库进行一系列预处理,包括文本清洗与分词,词性标注,词向量表示,词向量加权等,之后用检索匹配的方式生成应答。本文从四个方面对现有的智能问答系统进行优化。首先在语料库的建立上,除了使用线上公开的日常聊天数据外,我们收集了现实场景中商业推广主题和前端设计主题的真实数据,保证该智能问答系统可以为现实生活提供帮助。其次,预处理过程中,不再单独使用词袋模型表示词向量,而将其与Skip-gram模型相结合,共同生成最终的词向量。单独使用词袋模型生成的词向量为稀疏向量且彼此独立,尽管这种表示方法对离散特征友好,但是已编码的词向量丢失了词语之间的连接。Skip-gram模型用向量空间内词语之间的欧几里得距离表示两词的相近程度,以此增加了每个词向量中包含的信息量,方便机器理解连续的语句,生成密集向量,避免了维度灾难。使用词袋模型和Skip-gram模型相结合的混合词向量表示方法可以弥补单独使用词袋模型所带来的缺点,同时,保留了词袋模型出色的离散特征处理能力。第三方面,系统优化了词向量加权模块。摈弃仅根据词频决定词向量权重的传统方法,使用词频逆文档频率加权方法来提高关键词的权重,输出词语表达结果。最后联合使用检索匹配模型和基于注意力机制的生成对话模型产生应答,相较于现有的单独使用检索匹配模型生成应答,混合模型生成应答不仅可以回答语料库中预定义的问题,还可以通过长短期记忆网络的训练和预测真正理解句子的含义,回答开放域的问题。实验结果表明,运用混合词向量表示方法和词频逆文档频率的词权重调整方法可以提高语料库预处理的质量,混合模型生成的响应可以满足日常实际需求,并且整个系统可以顺畅的与人交流。