论文部分内容阅读
文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的文本相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但词语间普遍存在概念上的关联,缺乏概念层面的计算导致这些方法的准确性提升困难。而实现全文本在概念层面的精确计算尚无有效模型。本文以Resnik提出的单一名词的概念信息量为基础,提出了多种模型和方法实现在概念级别快速、精确地计算文本语义相似度。主要工作和创新点如下:(1)提出一种基于概念信息量的文本语义相似度基本模型针对现有文本语义相似度方法局限于词表面特征的问题,提出了一种概念级别的文本语义相似度模型,即用文本间公共信息量占文本总信息量的比例来衡量文本语义相似度。本文用Word Net中名词性概念及其上下位关系构建了概念空间,然后定义多个概念的公共信息量和总信息量,应用组合数学中的容斥原理计算文本信息量。首次把词语的概念信息量扩展到文本信息量。在Li等人数据集上的实验结果表明,该模型仅利用文本中的名词就优于传统无监督模型。(2)提出一种基于概念信息增益的文本信息量计算方法针对基于容斥原理的文本信息量计算方法时间复杂度过高的问题,提出了一种基于概念信息增益的文本信息量计算方法。该方法利用概念空间的特点,运用增量思想,通过累加每个新加入概念的信息增益获得文本信息量,避免了容斥原理方法难以消除的重复计算问题。本文建立了定理系统来推导基于概念信息增益方法的计算公式,并设计了相应的高效算法。分析得出算法的时间复杂度从高于O(2~n)降低到O(n~2),并通过实验验证了算法的优越性能,这表明算法可以快速计算长文本的信息量。(3)提出一种融合信息权重的全文本信息量计算方法针对只能计算名词的概念信息量而导致文本信息缺失的问题,提出了一种融合信息权重的全文本信息量计算方法,以提高模型在文本语义相似度中的计算精度。模型的改进体现在三个方面:1)使用Word Net中派生关系链接将动词、形容词和副词与相应的名词进行关联,以实现全部实词到名词性概念的映射;2)使用已知命名实体预测未登录命名实体的概念信息增益,以避免未登录命名实体的信息缺失;3)在概念信息量中融合信息权重,以准确拟合人类对语义相似度的主观评估。实验结果表明,与没有上述三方面改进的基本模型相比,增强模型的计算精度得到显著提升:在Sem Eval 2013~2016文本语义相似度测评数据上,增强模型的实验结果超过了当年最先进系统的成绩。在Sem Eval 2017文本语义相似度国际测评中,我们团队使用增强模型的总成绩在所有团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个测评系统)。有关增强模型的论文被Sem Eval评选为“Best of Sem Eval 2017”。综上所述,本文对基于概念信息量的文本语义相似度模型进行了深入的研究。通过大量实验和证明,为文本语义相似度研究提供了一种概念级别的计算模型,显著提高了相似度计算的精度与性能。