论文部分内容阅读
计算机及互联网技术的普及而产生的信息爆炸给传统的信息检索技术带来了巨大的挑战,也为能够根据用户自然语言提问而返回准确的自然语言答案的智能问答技术的发展带来了新的机遇。智能问答技术成为了未来搜索引擎发展的必然趋势,也成为了自然语言处理和人工智能领域的研究热点,具有重要的研究意义和实用价值。答案选择模块作为问答系统中为用户直接返回答案的部分,其性能的优劣直接影响整个系统的回答效果。本文针对如何汇聚融合结构化的领域知识和非结构化的描述文本等相关证据信息,实现对候选答案的判断,对答案选择方法进行了深入研究,主要的研究工作和特色创新包括:(1)基于表示学习的隐含实体关系推理针对传统知识推理方法在回答复杂自然语言问题时难以构造有效的知识库查询语句及错误级联等问题,提出了自然语言句子与知识库三元组的联合表示模型,将主谓宾类型的句子表示为与知识库同构的三元组形式并学习映射函数,将其表示在知识空间中,以Trans E的知识表示思想为基础,学习基于位移运算的文本—知识库联合表示。在知识推理阶段,利用问题的主题词与通过映射函数得到的问题在知识空间中的表示,将知识推理过程简化为向量位移运算,从而实现对复杂问题的有效回答。同时,利用维基百科和Freebase构造的数据集进行了实验验证,结果表明在针对复杂问题的推理任务中,相比于基于N-gram的方法,H@10指标相对提升超过30%;相比于传统知识库问答方法,相对提升超过100%;相比于传统的表示学习方法,相对提升超过40%。(2)基于特征关注机制的文本理解针对传统文本理解模型无法根据用户提问对文本信息的重要性加以区分而导致的信息利用率偏低的问题,提出了面向问题的特征关注机制。在模型中首先根据问题内容通过循环神经网络得到问题的向量表示,并进一步将其映射为与所使用特征维度相同的特征权重分布,之后将所选特征利用该权重分布加权,从而利用特征权重分布中包含的问题内容信息,实现根据特定问题区分特征的重要程度的目的。最后将加权后的特征后送入答案选择模型进行答案排序。在MCTest数据集上进行的验证实验中,将该特征关注机制应用在基于文本理解的问答系统中,结果表明相比于未进行特征加权的方法,本文所提出的方法回答正确率相对提升超过5%,相比于未考虑问题内容的特征选择方法(如PCA、L1正则),正确率相对提升超过3%。(3)面向多视角信息的特征融合与答案选择针对现有答案选择方法在进行特征拟合时由于特征融合能力较弱且标注数据不足的问题,提出了多视角特征融合方法。该方法按照信息来源将特征划分为多个不同视角,并基于谱图理论利用视角下数据之间的相互关系对各视角空间进行表示,之后同时利用标注数据和未标注数据学习一个融合多视角特征的公共空间,并利用公共空间中的特征表示进行答案选择。与传统答案选择模型相比,该方法能够有效利用不同视角之间冗余的一致性信息以及未标注数据中的有效信息增强各类特征对答案质量的拟合效果。在真实社区问答数据集上进行了质量评估实验,结果表明相比于传统的回归模型,本文所提出的方法在自动评价的实验设置下平均误差减少2%以上,在人工评价的实验设置下评分相似度提升超过5%。本文针对问答系统的答案选择方法进行了深入的研究,运用文本理解与知识推理方法分别对外部非结构化与结构化知识进行建模,并利用多视角学习的方法有效地将其融入答案选择模型,从而提大幅提高了答案选择的效果及问答的质量。