【摘 要】
:
随着Internet的迅速发展,网络中XML文档的数量呈指数级增长,XML关键字查询成为近年来XML数据查询的一个研究热点。为了解决XML关键字查询中语义信息丢失导致查询结果质量不高
论文部分内容阅读
随着Internet的迅速发展,网络中XML文档的数量呈指数级增长,XML关键字查询成为近年来XML数据查询的一个研究热点。为了解决XML关键字查询中语义信息丢失导致查询结果质量不高的问题,本文提出了一种综合文档语义与用户查询语义的XML关键字模式无关查询方法,通过增加查询结果的语义相关性,提高查询的准确率。论文的主要研究工作如下:(1)分析了XML文档树的结构和对应的模式信息,对文档中各节点间存在的隐含关系进行挖掘,将文档中的节点划分为实体、属性和值节点。基于节点的划分,使用表达文档基本语义的实体子树存储XML文档节点间隐含的语义信息,获得查询文档的语义信息。(2)规范了用户的关键字查询表达式,对查询关键字进行分析,明确了查询关键字相互问隐含的语义信息;针对用户不同的查询期望,把查询关键字归为预测关键字和结果关键字两类,预测关键字主要用于查询,结果关键字主要用于返回查询结果。(3)提出了一种改进的基于WordNet计算概念间相似度的算法,算法主要考虑了关键字查询过程中概念间的非对称性。并且结合相似度计算方法对两类查询关键字进行扩展查询,实现XML关键字的模式无关查询。(4)在获取文档语义和用户查询语义的基础上,对查询返回结果集进行了研究,提出了一种新的返回结果集——语义相关实体子树集。对现有最小最低公共祖先算法进行改进,实现了语义相关实体子树集的求解算法。(5)通过实验对比,证明了本文提出的综合文档与用户语义的关键字模式无关方法相比于传统的关键字查询算法,能够更准确的捕获用户查询意图,同时查询的有效性和效率等方面都能取得满意的结果。
其他文献
随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到
随着图像编辑软件的广泛使用,对数字图像的修改变得越来越容易,其真实性受到威胁,如果在一些对图像的原始性要求比较高的领域内出现伪造的数字图像,将会对社会产生十分恶劣的影响
随着互联网的高速发展,多媒体数据指数级增长的时代已经到来。面对具有海量、高维等新特点的互联网数据,传统的索引和检索方式已经难以满足用户快速而准确的要求。因此,新的、快
可视化是油藏数值模拟结果数据与工程师之间的媒介,而等值线是可视化的重要表示形式,它同时在气象、医学、地球科学等许多领域也有着重要的作用。本文主要研究了在复杂情况下
随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的
图像分割是一种重要的图像分析技术。在图像处理过程中,图像分割是从图像预处理到图像识别和图像分析理解的关键步骤,在图像处理中占据重要的位置。图像分割并无统一的分割标
天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。观测仪器设备及数据收集能力的大幅度提高,使得我们迈入了天文观测数据的“雪崩”时代。天体在光学波段
本文对个性化信息检索的关键技术和用户兴趣模型进行了研究,并针对勘探与生产分公司对门户个性化信息检索的需求,在分析勘探生产门户体系结构、组成及信息组织方式的基础上,
随着多媒体、网络技术的飞速发展,科学技术的推广应用以及人民生活水平的逐步提高,出现在人们面前的视频信息越来越多。如何高效地组织管理这些包含巨大信息量的新型媒体,以
随着互联网技术的迅速发展,Web系统的功能越来越丰富,人们对Web产品质量的要求也在增加。软件测试作为一种保证软件产品质量的有效手段,其作用日益凸显。仅仅依靠以劳动密集