论文部分内容阅读
语义相关度计算是自然语言处理的基础性工作之一,在很多领域都有着广泛的应用,例如信息检索、词义排歧、智能问答、自动摘要和机器翻译等。不同于长文本,短词语相关度计算最大的困难在于词语本身,因为它没有包含足以从中获取可靠语义特征的信息。而人类在比较词语的相关度时,不仅是根据词语本身,还利用了在日常生活学习中积累的大量常识。因此计算机也需要依赖大量的一般意义或专门领域的世界知识来进行语义概念的扩充,以在扩充后的概念空间中进行语义相关度的计算。
目前,词语相关度计算主要有两种方法。一种是基于大规模文集的统计方法,另一种是基于某种分类体系或世界知识的知识库的方法。其中对基于统计和基于分类体系方法的研究比较多且很成熟,但在进一步提高计算精度方面遇到了瓶颈。而最近提出的以维基百科作为世界知识的方法在准确度提升上取得了很大的成功,但其仍然存在着一些不足和可以进一步完善的地方。
本文以维基百科作为知识库,在分析和总结已有基于统计的传统方法和基于维基百科的最新方法基础上,对语义相关度计算中一词多义现象和维基百科中链接结构的利用问题进行了深入研究。本文的主要研究工作和贡献如下:
(1)研究了语义相关度计算的背景和存在的问题,阐述了相关度的概念和评价体系,并对现有的相关度计算方法进行分析,对比了各自的优缺点。
(2)通过建立模型,详细论述了现有基于维基百科的算法在一词多义或多词一义情况遇到的难题,并提出了一种考虑词对语境变化的自适应计算方法。
(3)由于现有基于维基百科的方法都忽略了维基百科中存在的大量硬编码的、高质量的链接关系信息。本文提出利用链接结构进行语义概念的扩充和筛选的方法,来提高相关度计算的准确性和健壮性。
(4)选取目前应用最广的标准测试集WordSimilarity-353对实验结果进行分析和比较。结果表明我们提出的两种方法都优于现存所有的方法,计算结果同人类判断之间的相关系数r从0.75分别提升到0.80和0.78。此外,我们的方法更具适应性,更容易为人类所理解和接受。
最后,本文还指出了该领域值得进一步研究的问题。
目前,词语相关度计算主要有两种方法。一种是基于大规模文集的统计方法,另一种是基于某种分类体系或世界知识的知识库的方法。其中对基于统计和基于分类体系方法的研究比较多且很成熟,但在进一步提高计算精度方面遇到了瓶颈。而最近提出的以维基百科作为世界知识的方法在准确度提升上取得了很大的成功,但其仍然存在着一些不足和可以进一步完善的地方。
本文以维基百科作为知识库,在分析和总结已有基于统计的传统方法和基于维基百科的最新方法基础上,对语义相关度计算中一词多义现象和维基百科中链接结构的利用问题进行了深入研究。本文的主要研究工作和贡献如下:
(1)研究了语义相关度计算的背景和存在的问题,阐述了相关度的概念和评价体系,并对现有的相关度计算方法进行分析,对比了各自的优缺点。
(2)通过建立模型,详细论述了现有基于维基百科的算法在一词多义或多词一义情况遇到的难题,并提出了一种考虑词对语境变化的自适应计算方法。
(3)由于现有基于维基百科的方法都忽略了维基百科中存在的大量硬编码的、高质量的链接关系信息。本文提出利用链接结构进行语义概念的扩充和筛选的方法,来提高相关度计算的准确性和健壮性。
(4)选取目前应用最广的标准测试集WordSimilarity-353对实验结果进行分析和比较。结果表明我们提出的两种方法都优于现存所有的方法,计算结果同人类判断之间的相关系数r从0.75分别提升到0.80和0.78。此外,我们的方法更具适应性,更容易为人类所理解和接受。
最后,本文还指出了该领域值得进一步研究的问题。