论文部分内容阅读
语义Web是对下一代Web形态的新设想,作为当前互联网的延伸,语义Web的目标是使网络应用更加智能化和自动化,能够让机器“理解”Web上的信息,从而更加高效地检索信息。作为语义Web的知识载体,RDF(ResourceDescription Framework,资源描述框架)的出现使得语义检索成为可能。随着RDF数据规模和复杂程度的迅速增长,对于RDF查询的需求越来越多,同时难度也越来越大。 当前,在RDF本体查询中,一方面,异构的本体结构和复杂的本体查询语言往往造成用户的认知困难,即使用户明确自己的查询意图,常常由于不能为查询提供正确的查询模式而导致查询返回结果为空或少量的情况,此时用户希望系统能够修正查询模式或者自动放松查询限制条件(即查询松弛),以提供近似匹配的查询结果;另一方面,在松弛过程中可能面临多条松弛路径和经过查询松弛后的多查询结果问题,此时用户又希望系统能够对松弛路径以及查询结果自动排序,避免信息过载。 为此,本文提出基于相似度和上下文偏好的RDF本体松弛方法。首先,针对返回结果为空或少量的情况,提出RDF查询松弛的方法,通过基于RDFS蕴涵规则和领域偏好的松弛方法对初始查询模型进行松弛重写,在松弛过程中构建查询松弛树模型,根据不同的松弛路径得到更多查询结果。然后,针对多松弛路径以及松弛后的多查询结果问题,本文提出了面向RDF的语义相似度和上下文偏好的模型,通过对松弛查询模型语义相似度和松弛重写规则上下文偏好程度的定量表示,进而对松弛路径进行加权排序以提供多松弛路径和多查询结果排序方法。当查询到来时,根据对应元组的语义相似度以及对应松弛路径上松弛规则的上下文偏好,利用这些代表性排列为当前查询快速提供top-k个结果元组。最后在提出的查询松弛策略的基础上,给出了查询松弛算法设计,并且通过一个简单的原型系统,验证了本文所提出方法的可行性,同时通过与现有RDF查询松弛方法的比较,说明了本文所提方法在松弛步数、查询响应时间以及查全率方面具有优越性。