论文部分内容阅读
本文的目标在于利用维基百科作为语义知识源,构建一个渔业知识相关的语义知识库,文中针对渔业知识的特点,着重对语义相似度计算方法和实体歧义消解方法的分析与研究,并对语义相似度计算方法提出了改进,提出了自己的实体消歧算法。本文抽取维基百科页面的信息框(infobox)知识,并以三元组的形式进行表示。许多不同的语义相似度计算方法应用于自然语言处理领域,知识获取领域和信息检索领域。目前,很多研究者致力于已经存在的方法支持多本体的相似度计算,以提高相似度的关联值,本文中使用了基于特征的相似度计算方法,整个过程支持多本体方法,并使用了启发式函数。通过渔业知识数据的采集,对实体相似度计算进行了实验。经典的基于本体的语义相似度主要分为以下三种:基于路径的方法,基于特征的方法,基于信息内容的方法。基于路径的方法是最简单的一种方法,通过is-a链接计算本体节点间的最短路径,但所有的路径必须统一相等的长度。基于特征的相似度计算方法克服了基于路径相似度计算方法的缺点,基于特征的相似度计算方法中,本体中的分类链接不需要统一为相等的长度,但是要考虑本体特征集合的重叠程度。基于特征的语义相似度方法可以用于交叉本体,而基于路径的相似度计算方法不能。本文的语义相似度的优点在于,相比于Tversky的方法,本文的基于特征的相似度计算方法不使用权重参数去衡量语义特征,提高了方法的通用性。对于知识库的更新来说,知识库新实体的内容获取是比较重要的一件事情。输入新的知识到知识库之前,需要实体链接,以保证新知识的实体能够链接到知识库的实体。整个过程中,实体消歧是一个比较有挑战性的任务。命名实体消歧有很多算法。本文中,命名实体消歧的处理可以通过不同的语义关系,相似度方法分析相关文本。基于提出的方法构建了渔业知识库。本文的实体消歧算法主要侧重点有两点:第一,从维基百科,百度百科,互动百科收集大量的同义词集,以支持用户不同的搜索习惯;第二,对于存在无法消歧的实体,提出了二次消歧算法,以解决有的实体无法消歧的问题。对于渔业知识库的表示、构建、挖掘以及在搜索中的应用。目前存在的主要问题有:1)目前知识库还处于初期阶段;2)人工干预很重要;3)结构化数据在知识库的构建中起到决定性作用;4)各大搜索引擎公司为了保证知识库的质量多半采用成熟的算法;5)知识卡片的给出相对比较谨慎;6)更复杂的自然语言查询将崭露头角(如命名实体歧义消解算法)。此外,知识库的构建是多学科的结合,需要自然语言理解,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识库的发展。