论文部分内容阅读
汉语句子相似度计算是中文信息处理领域中的一项基础研究工作,这方面的研究已经被应用到很多相关领域。比如在基于实例的机器翻译、基于常问问题库的自动问答系统、信息检索等领域中,句子相似度计算都扮演者非常重要的角色,它的研究成果直接决定着某些相关领域的发展状况。因此,如何衡量两个句子的相似程度成为人们长期以来的一个研究热点和难点。在汉语句子相似度的研究过程中,本文从汉语句子的词形、语义、句法结构三个方面的特征分别进行了研究,针对基于这三种特征的句子相似度计算方法的优缺点,对基于语义特征的方法进行了改进,并融合这三个层次的特征,提出了一种融合多种句子特征的汉语句子相似度计算方法。最后,实现了一个句子相似度计算的应用实例——基于常问问题集的中文自动问答系统,并应用此系统,设计了两组实验验证了本文提出的汉语句子相似度计算方法的可行性及有效性。本文完成的主要工作有以下几个方面:1.研究了汉语词汇语义相似度及其计算方法。由于词语是构成句子的最基本的语法和语义单位,在研究句子相似度之前有必要先了解词语的相似度计算技术。因此,本文研究了目前常用的两类词语相似度计算方法,分析了这两类方法的优缺点,并深入研究了《知网》以及基于《知网》的汉语词汇语义相似度计算方法。2.改进了基于语义特征的句子相似度计算方法。由于目前的句子语义相似度计算方法都只考虑了句子中词语之间的同义、上下位等语义关系,并没有考虑反义以及否定语义关系,而反义和否定语义在很多情况下会使句子的语义发生很大变化。因此,本文考虑了词语之间的反义和否定关系对句子语义的影响,使句子的语义相似度计算更加合理。3.提出了一种融合多种句子特征的汉语句子相似度计算方法。本文重点研究了基于句子的词形、句法结构和语义信息三方面特征所设计的三类句子相似度计算方法,分析总结了每类方法的优缺点,针对它们各自的优缺点,综合考虑了这三个层次的特征对句子相似度的影响,并结合本文改进后的基于语义特征的相似度计算方法,提出了一种融合多种句子特征的汉语句子相似度计算方法,从更多角度来刻画句子的相似程度,使句子的相似度计算结果更符合人们的逻辑判断结果。4.设计实现了一个基于《计算机网络》课后习题集的自动问答系统,并用该系统设计实验验证了本文提出的句子相似度计算方法的可行性和有效性。