论文部分内容阅读
语义Web是对现有万维网的一种扩展,它赋予Web资源语义,使计算机能够理解Web信息。随着语义Web的发展,用于描述Web数据语义的RDF数据量飞速增长,有效获取RDF有用信息成为亟待解决的问题,致使RDF查询方法的研究日益得到关注。针对RDF三元组方式的数据,传统的查询方法不能支持其数据的检索,众多机构或组织的研究者们针对RDF图数据的特点定义了多种查询语言,这些RDF查询语言是查询RDF数据获取其中所表达的语义信息的重要手段。常见的RDF查询语言多达几十种,应用最为广泛的是W3C组织发布的SPARQL语言。目前,基于SPARQL语言的RDF查询方法能较好地支持RDF的精确查询,然而实际应用中的信息获取有时需要通过模糊查询得到近似结果,当前已有一些工作致力于RDF的模糊查询,但其研究与应用主要集中在数据库框架下,要求用户以定量的方式表达模糊查询请求,而针对自然语言的模糊查询方式在现有的RDF模糊查询的研究中涉及较少。本研究以模糊集理论为基础,考虑用户日常查询的操作习惯,针对语义Web中存在的大量RDF数据,从满足普通用户模糊查询需求和偏好的角度入手,基于语言变量,以扩展标准SPARQL语言为前提,研究了不同类型RDF数据特点,提出数值类型RDF模糊查询方法和文字类型RDF模糊查询方法;分析了偏好特点,针对多模糊条件中包含偏好信息的单极性和双极性特点提出了单极偏好RDF模糊查询方法及双极偏好RDF模糊查询方法;基于提出的方法,构建了一个支持模糊条件的可视化RDF查询系统。本文的研究内容主要包括:(1)为解决使用隶属度表达查询条件模糊程度而造成的用户理解困难问题,提出了数据类型RDF模糊方法。首先,分析了使用隶属度的定量方式表达模糊的定性问题存在的弊端,从语言变量的模糊表达方式入手,扩展了经典SPARQL,以支持使用语言的方式表达模糊条件的描述;其次,针对数值型RDF数据特点,分析了绝对量词和相对量词模糊特征,提出了绝对量词及相对量词的模糊查询方法并基于模糊集理论给出了模糊条件转换规则;最后,构建了实验系统,运行典型实例,通过对结果的分析验证了方法的可行性。(2)文字类型RDF模糊查询的关键问题是查询关键词的模糊匹配,综合应用《同义词词林》和《知网》的相关理论,提出了扩展关键词的RDF模糊查询方法。定义了词语距离计算公式,并将词语距离作为词语语义相似度的计算参数;给出了一个通过词语义原组合的方式计算词语语义相似度的公式,调用公式计算词语语义相似度并将语义相似度大于0.5的词语作为查询的扩展关键词,添加到查询关键词集合中,由此将查询中的模糊关键词转换为一组精确关键词,利用现有的SPARQL查询引擎实现文字类型RDF的模糊查询。最后,通过实验系统验证了所提方法的可用性。(3)针对日常表达中包含的偏好信息,分析其偏好特点,将模糊查询中的偏好划分为单极偏好和双极偏好两类,并分别给出了对应的RDF偏好查询方法。使用语言的方式描述查询中的偏好条件;扩展了SPARQL语言支持偏好表达。针对单极偏好查询问题,通过偏好属性加权计算的方式计算偏好度,以偏好度为关键字调用排序机制优化结果实现偏好查询。双极偏好查询,调用语言变量的RDF模糊查询方法实现去模糊化转换后得到近似的结果,利用偏好满意度函数来评价结果符合双极偏好条件的程度,定义了一个优先度函数通过排序的方法实现结果优化。实验系统及相应的实验结果验证了所提方法的有效性。(4)随着RDF查询方法的广泛研究,产生了一些RDF的查询验证系统,然而针对RDF的模糊查询尚未见到较为成熟的系统,为实现以用户为中心的操作,构建了一个RDF模糊查询系统,该系统隐藏了复杂的处理过程及用户难以理解的模糊参数,可较好地支持精确和模糊查询。通过可视化的操作界面能帮助用户较为容易地完成选择查询、组查询及偏好查询操作;提供了“点选-录入”操作和SPARQL语言两种查询方式,以满足普通用户及专业用户的不同查询习惯;设置了手动调整模糊匹配值的方式,帮助用户根据需求调整结果,以满足不同精度的模糊查询需要。