基于语义的XML关键字近似查询方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:a2622139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,越来越多的应用采用XML作为信息表示和数据交换的标准,所以用户对于XML数据查询技术的要求也越来越高。在进行XML数据查询时,用户输入的查询条件往往不能准确表达自己的查询目的,这就使得查询具有一定的试探性和渐进性。传统的XML关键字查询方法对所有查询关键字进行精确的匹配,没有考虑到XML文档中的语义信息在近似查询方面的作用,从而导致无法返回语义上近似满足用户查询需求的查询结果。如果查询关键字较多,可能会导致因为查询条件过于严格而产生空结果或者查询结果过少的问题。另外,XML数据中蕴含的语义信息,对改善查询的性能具有重要意义。因此,如何有效利用XML数据中的语义信息返回与用户需求最为相关的查询结果成为一个亟待解决的问题。基于上述需求,本文提出了一种基于语义的XML关键字近似查询方法。该方法首先从XML文档中提取出查询实体,通过查询实体计算出关键字间相似度,对初始的查询条件进行松弛处理,利用新的查询条件对XML数据进行查询。整个XML关键字近似查询方法主要分成三部分:首先,提出了查询实体的概念,并给出了从XML文档中抽取查询实体的算法。其次,提出了查询实体间相似度处理算法,然后利用叶子结点对应关键字与其所在查询实体间紧密的结构和语义关系,提出了利用查询实体间相似度来计算关键字间相似度的方法。最后,利用SLCA(Smallest Lowest Common Ancestor)的性质,提出了基于语义的XML关键字近似查询算法,该算法与现有的算法相比,能够减少对最终结果无意义的中间结果的计算,并且该算法对扩展后的查询关键字进行查询,可以有效的避免多次的查询重写操作并且根据相似度乘积对查询结果进行排序,优先返回用户需要的查询结果。实验测试表明,本文提出的XML关键字近似查询方法能够在满足用户对文档内容的近似要求,同时在召回率、精确率和算法稳定性上也取得了较好的效果。
其他文献
双环网络是计算机互连网络或通讯系统的一类重要拓扑结构,具有对称性且有较高的容错能力的特点,易于扩展,广泛应用于计算机局域网及大规模并行处理系统。图的某些参数如连通度和
本文首先介绍了NGN网络及相关应用协议SIP的背景和发展前景,分析并研究了在NGN网络中短消息中心的实现方案和技术,并在此基础上自主开发了NGN短消息中心,实现了短消息中心的基本
线性复杂度、k错线性复杂度是密钥流序列安全强度的重要度量指标,安全强度高的密钥流序列应当具有高线性复杂度以及k错线性复杂度。密钥流序列的线性复杂度、k错线性复杂度一
Web服务组合已成为构建跨企业应用的重要途径。我们的“先进制造网格应用平台”(Advanced Manufacture Grid)课题提出的基于业务策略的制造业动态虚拟联盟的应用集成方法,就是
  时间序列是一类广泛存在于商业应用和科学研究中的复杂数据,如每日股票价格、电信用户的每日通话分钟数、太平洋每天海表面的温度值等。 本文提出了一种将时序相似性度
本文首先在SCM与企业文化相关理论的基础上,提出了供应链文化的定义,并且从内涵、特征、结构和功能几个方面对供应链文化进行了详细的论述.其次,讨论了作为供应链文化核心—
本文研究了基于多元界的近似信息检索技术,考虑了概念合取和析取之间的蕴涵关系来得到概念的最佳近似。定义了最小上近似和最大下近似两种概念的最佳近似。将概念的最小上界和
  近年来,移动设备迅速得到了普及,无线网络技术也得到了飞速的发展,因此,如何在Internet网络中为移动主机提供更好的支持引起了人们的普遍关注。由于多播应用具有可扩展性强、
随着基于组通信多方参与的应用如视频会议、远程教育、视频点播等的需求不断增加,视频组播的应用也越来越广泛。视频流对时延、抖动敏感,带宽需求大,需要可预计的时延和丢失
密集波分复用技术为将电视网、电话网和传统计算机网络合并为一个数字化、分组化的集成的网络提供了高速通信条件,而现有的Internet的三层/两层的用户数据传输平面的传输效率