论文部分内容阅读
语义相似度是人工智能、信息检索、文本分类、机器翻译、词义排岐、自动问答和句法分析等领域的基本问题,有着广泛的应用,具有理论的研究价值和应用前景。词语相似度计算是句子、篇章等相似度计算的基础,在语义相似度计算中起着至关重要的作用。因此,本文介绍了目前国内外词语相似度计算的研究现状及具有代表性的计算方法。并针对目前词语相似度计算方法的不足之处,提出了引入领域知识的词语相似度计算方法,使具有“一词多义”的词语能根据所处的领域环境而具有不同的相似度,提高了词语相似度的精确性。本文的主要创新之处如下:1、提出一种基于领域知识的词语相似度计算方法。本文给出了敏感词集的概念并利用敏感词集,对待比较词进行词义排歧,解决了传统的词语相似度计算方法中没有考虑词语间相似度与领域知识相关的事实的缺点,使得“一词多义”词语在不同的领域知识下得到不同的相似度。实验结果证明了不同领域中相同词语的相似度是有差异的。因此,在选择了合适的敏感词集的情况下,能够得到与领域知识更相符的语义相似度。2、基于《知网》的词语相似度计算,优化了概念相似度计算方法。在概念相似度计算时,本文考虑《知网》中某些词语由于描述方式的差别而带来的计算误差,不区分第一基本义原和其他基本义原。同时,当关系义原或关系符号义原均为空时,将该部分相似度设为基本义原的相似度,这样可以减小计算过程中的误差。3、基于《知网》的词语相似度计算,提出一个引入义原位置结构的义原相似度计算方法。目前,义原相似度计算方法大都考虑了义原的语义距离、义原深度等对义原相似度的影响,但是从未考虑过义原的位置结构在相似度计算中的作用。本文从义原的组织结构上,将两义原的位置关系分为三类,并据此给出三种相应的计算方法。通过实验发现:两义原的位置结构越平衡,两义原的相似度就越大。本文的义原相似度计算方法提高了“具有相同语义距离但是结构不同”义原相似度的分辨率。