论文部分内容阅读
随着互联网技术的飞速发展,文本数据大幅度地增长,如何利用计算机从大量复杂的文本中获取有用的信息,借助语义相关度计算是解决这一问题的途径之一。词语作为句子和文章的基础,其相似度和相关度计算同样也是语义计算的基础,在其他级别的(如句子、文章)文本间关系度量中发挥着非常重要的作用。 语义相关度计算的基础是语义资源,目前使用较多的语义资源主要有语义词典和知识库。语义词典的典型代表是WordNet和知网,这两种语义资源在语义计算中占有重要地位,但是语义词典的覆盖面有限,并且建立这样的语义资源耗费巨大。维基百科是一个可供每一个互联网用户自由编辑的网络百科全书,是目前词条数目最多和增长速度最快的百科知识库。维基百科能够提供大量可供计算机处理语义信息,所以本文最后选择了利用维基百科来进行语义计算。 基于维基百科的语义相关度算法有很多,根据维基百科的结构特点,大致可以分为四类,基于分类结构的算法,基于链接结构的算法,基于页面信息的算法和混合式的算法。本文分析了各种算法的优劣之后提出了一种新的算法,该算法应用向量空间模型,把概念链接的对应的维基百科分类属性处理简化为向量空间中的向量运算,并且它以空间上的相关度表达语义的相关度。当页面被表示为链接的向量,就可以通过计算向量之间的相关性来度量概念间的相关度。本文分析了维基百科各个链接的结构特点,对两个页面有互相的链出链接、有相同链出链接以及不同链出链接的权重作出了定义。一般的论文在结合两种结构时采用的是加权求和的方法,本文提出了一种新的方法来结合两种结构的语义信息。本文算法的创新点在于,分析了概念页面链接的所属分类,利用Google-Distance和节点在分类结构中的语义距离,来计算链接的权重系数。本文选取了Miller andCharles测试集,使用Spearman系数对算法的准确性进行验证。实验表明没有加入基于分类结构信息计算权重时相关系数为0.596,加入分类信息之后相关系数为0.67,高于除ESA以外的其他算法。由于ESA算法使用语义信息量庞大,算法复杂度较高,所以总体来说,本文算法取得了很好的结果。