论文部分内容阅读
语义网是当今互联网的发展趋势,语义网环境下的文档拥有丰富的语义信息,这为数据的语义处理提供了基础。面向语义网的语义专题搜索引擎将充分的利用语义网丰富的语义信息作为出发点,通过分析语义文档中的语义标注和本体的知识表示使得用户针对某一个专题进行精确的搜索成为可能,面向语义网的语义专题搜索引擎的关键技术研究对推动互联网技术的进一步发展以及语义网的普及具有重要意义。面向语义网的语义专题搜索引擎包括语义专题爬虫、本体映射器、实体融合器、语义索引器以及用户界面几个主要部件。本选题主要研究内容包括以下四个方面:(1)计算本体概念之间相似度的新方法。方法除了考虑概念的属性相似度对概念相似度的影响以外,还将两个概念之间存在多条路径连接的情况纳入了考虑范围。(2)语义专题爬虫的路径调整算法。通过计算页面主题相关度计算作为Q学习器的回报函数,并采用用户操作数据对回报函数的参数进行调整,提高爬虫获取主题相关语义文档的性能。(3)结合多种本体元素的相似度的本体映射方法。映射方法除了考虑到本体的语言相似度和结构相似度以外,还加入了本体实例的相似度作为映射结果的参考因素。(4)语义信息的语义分级索引。语义分级索引从多种索引对象出发,分析对象的特点,建立索引逐步引导用户通过快速查询逼近真正的查询意图。论文在以下方面作了有益的探索和创新性工作。(1)对语义网以及语义搜索引擎的特点进行了分析,指出了目前的语义搜索引擎的局限性,并在此基础上提出了一种基于语义解析和处理的面向语义网的专题搜索引擎框架(以下简称FSTSE),并且对框架中的各个部件的工作流程和作用进行了阐述。FSTSE为以下的各个方法研究提供了基础。(2)在FSTSE的框架下,针对语义专题爬虫的路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为Bayes分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调整爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证。(3)针对语义网应用普遍存在的本体异构问题,本文提出了结合多种本体元素的相似度的本体映射方法。除了本体映射方法中常用的语言相似度和结构相似度以外,本文还对概念实例的相似度计算方法进行了研究,并提出了一种判断簇内样本纯度的衡量标准——信息熵纯度。通过对聚类形成的簇的信息熵纯度来分析本体中拥有实例集合的概念之间的相似度。实验表明,这种本体映射方法表现出很高的性能。(4)为了提高语义搜索引擎的查询效率,本文对语义信息进行了不同粒度的解析,建立了多级的语义索引结构,目的是为了满足用户针对语义信息不同的查询需求。分级索引包括文档、聚类、路径和三元组四个级别,每个级别都根据索引对象的特征建立索引,并且以语义信息之间的语义相似度为基础,试图理解用户的搜索意图,提高搜索效率。最后,本文通过实验对索引性能进行了测试。(5)在FSTSE的基础上,结合语义爬虫的路径调整方法、多种相似度混合的本体映射方法和分级的语义索引结构,我们实现了一个面向语义网的语义专题搜索引擎原型系统——Sniper。Sniper基本实现了文中方法的设计目标,能够快速的响应用户的语义查询,实现了语义数据在语义层面的融合。本文主要针对语义网环境下的语义信息的信息集成问题进行研究,基本实现了语义层面的信息获取、信息融合、信息组织和信息利用过程,是对信息集成方向的应用技术研究。