论文部分内容阅读
智能问答系统是融合了自然语言处理技术和信息检索技术的人工智能产品。根据目标的不同,智能问答系统被分为开放领域与限定领域两类。本文设计并实现了限定领域的智能问答系统,并重点研究和改进了相关算法。本文所实现的智能问答系统主要包含知识库梳理、问题理解、问题检索三大模块,涉及的技术包括排序学习、词向量、模糊匹配、卷积神经网络、语言模型以及Luence。作者本人的主要工作是改进并实现基于卷积神经网络的混合向量模型和排序学习模型,参与了四川省凉山州政府政务智能问答系统的具体实现。其中混合向量模型、排序学习模型的设计与实现由本人独立完成,并参与了凉山州政府政务智能问答系统的需求分析、详细设计以及编码阶段。基于卷积神经网络的混合向量模型,主要使用词向量技术、卷积神经网络技术。其中,词向量技术源于谷歌2013年提出的word2vec开源工具,卷积神经网络技术的优化目标为间隔最大化。混合向量模型包括问句向量生成模型以及答案向量生成模型,模型生成的问句向量和答案向量并不针对某个特定分类目标,而是不同种类的向量彼此之间的间隔最大化。答案向量生成模型在优化答案向量的同时也优化问题向量,通过彼此优化的方式达成协同最优效果,组成混合向量模型。排序学习模型是一种运用机器学习的方法解决排序问题的模型。典型的排序学习模型分为三种,以单个文档作为训练对象的PointWise模型、以文档之间偏序关系作为训练对象的PairWise模型和以文档列表作为优化对象的ListWise模型。本文采用基于ListWise模型的ListNet模型完成排序学习训练。排序学习模型以混合向量模型的结果作为特征,另外加入关键词特征、模糊匹配特征,通过排序学习得到这三个特征的权值信息,用于优化排序结果。实验表明,本文所述智能问答系统的检索答案比Lucene检索答案的准确率提高了17%,验证了本文所提算法的准确性。目前该算法模型已成功应用于四川省凉山州政府政务智能问答系统中,取得了不错的效果。