一种新的基于向量空间的XML文档相似性度量方法及搜索技术

来源 :山东大学 | 被引量 : 0次 | 上传用户:bai1988ping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,半结构化语言XML作为一种标记语言,具有有效的表达各种信息、数据和使各种应用协同工作的能力,已经成为数据发布和数据交换的事实标准。XML文档作为一种新的数据形式,成为当前的研究热点。在XML文档的应用中,XML数据查询技术是XML技术研究的重要内容。XML文档间相似度的计算是XML文档分析、管理及搜索的基础。在XML查询技术中,对XML文档的准确匹配搜索技术已经非常成熟,已经成为人们广泛应用于文本搜索,而且已经被证明是很好的XML文档检索技术。然而,对XML文档的不准确匹配搜索还处于初级阶段,还有存在许多问题,比如对XML的搜索效率、检索的准确度以及检索的查全率。大量研究已经证明对XML文档的不准确匹配搜索技术之一相关关键字搜索很适合于标记树结构的XML文件。本文即是利用相关关键字搜索技术的思想提出了一种新的基于向量空间的XML文档相似性度量方法,并且基于这种XML文档相似性度量方法的基础上设计出了XML文档搜索算法。同传统的XML文档的搜索算法一样,我们首先把XML文档以XML文档树的形式表示。我们对XML路径的层次关系赋予权值并映射为向量,并对把XML文档集映射为XML矩阵空间。这样可以简化XML文档相似性计算量以提高算法的效率。然后,通过矩阵变换来缩小矩阵空间来缩小相应的搜索空间,以提高XML相关关键字搜索的效率。最后本文对这一搜索技术进行了测试,并得出了总结了测试结果。
其他文献
图表可以使得数据的表现更加直观和生动,但随着Internet技术和移动设备的蓬勃发展,人们对于图表的应用要求也越来越多。SVG(Scalable Vector Graphics,可伸缩矢量图形),继承
随着互联网的日益普及、移动通信的迅猛发展、网络传输以及各种新多媒体业务的出现,图像/视频编码技术已经成为当今信息科学与技术的研究热点。但是网络信道具有时变、误码率
基于IEEE 802.11的长距离无线mesh网络(Long-Distance wireless Mesh networks,LDmesh)由多个路由节点和客户端组成,节点通常采用廉价的大功率IEEE 802.11a/b/g/n无线网卡和
自动指纹识别技术是目前应用最为广泛的一种生物特征识别技术。它大致包括指纹图像预处理(指纹分割、指纹增强、指纹细化)、特征提取、特征匹配三个阶段。到目前为止,已有不少
伴随着工业界和学术界对云计算领域研究的持续深入,以及市场对IT成本和绿色计算的特别关注,桌面虚拟化和桌面云是继云计算领域中服务器虚拟化之后另一个技术研究和市场热点。
传统传输控制协议(Transmission Control Protocol, TCP)协议假设网络中出现分组丢失完全是由网络拥塞引起的,而在Ad Hoc网络中除此之外,还存在路由变化、信道错误和链路中断
本文探讨了西南大学研究生在CNKI数字图书馆信息检索过程中的选择行为特点和影响因素。首先,本文结合用户在传统数据库中的信息检索过程和用户在搜索引擎中的信息检索过程,总结
在传统的资源管理方式下,由于信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,从而难以实现相关资源的语义融合。如何使被管理的信息资源具有应用程序可以理解的含
本文对基于语义过滤的文本和文本流聚类进行了研究。文章首先针对现有模型通用词削弱能力不够强的问题,提出一种改进模型,并把该模型与基于静态文本集的聚类算法相结合,实验表明
基于自然的元启发式算法一直是人工智能领域中一个非常重要的研究课题,在以往的研究工作中,学者们提出了神经网络,模拟退火,遗传算法等许多优秀的元启发式算法,并在解决各类问题时