论文部分内容阅读
语义相似度在人工智能、认知学、语义学、心理学和生物信息学等领域里占有重要的位置,具有理论的研究价值和应用前景。一个有效的语义相似度计算方法能够在很大程度上改进相关系统的性能,正是基于这一点,本文提出了基于扩展关系的信息量计算方法、路径和信息量相结合的词语语义相似度计算方法和基于最大值的短文本语义相似度计算方法。1.基于扩展关系的信息量计算方法信息量在词语语义相似度的计算中占有重要的位置。目前信息量的计算方法主要有两种,一种是大的语料库和WordNet关系树相结合的方法,另外一种是Nuno提出的依据WordNet关系树的方法。Nuno和Pirro的实验结果都表明,后一种方法优于前一种方法。在Nuno方法中,作者仅仅考虑了WordNet中的上下位关系,而没有考虑其它关系,但是同上下位关系一样,部分整体关系同样反应WordNet中的语义信息,综合考虑这两种关系应该能改进信息量的计算结果,基于这一点,本文提出了基于扩展关系的信息量计算方法。2.路径和信息量相结合的词语语义相似度计算方法词语语义相似度在短文本语义相似度的计算中占有重要的位置。目前词语语义相似度的计算方法有很多种,但是这些方法在计算词语语义相似度时大都仅仅考虑了影响相似度的单一因素,如路径。但是路径和信息量对相似度的影响是不同的,综合考虑这些因素应该能够改进词语语义相似度的计算结果,基于这一点,本文提出了路径和信息量相结合的词语语义相似度计算方法。3.基于最大值的短文本语义相似度计算方法。文本相似度的计算方法有很多种,但是这些方法大都用来计算文档或者长文本相似度,主要针对短文本语义相似度的方法很少。因为在计算词语语义相似度时,我们总是选择包含词语的概念的语义相似度的最大值来表示词语的语义相似度,所以我们相信在计算短文本语义相似度时同样可以考虑词语相似度的最大值,为此我们提出了一种基于最大值的短文本语义相似度计算方法。与此同时,本文还通过实验验证了这三种方法的可行性和有效性。首先在RG、PSl和PS2数据集上证明了基于扩展关系的信息量计算方法及路径和信息量相结合的词语语义相似度计算方法优于其它方法,接着在Li给出的数据集上得出了同样的结论。在Li给出的数据集上,本文还证明了基于最大值的短文本语义相似度计算方法是有效的可行的。实验结果表明,这三种方法相结合,在计算短文本语义相似度时结果最佳,明显优于其它方法。