相似XML文档合并方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gz200009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensibleMarkup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。本文介绍了几种XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着XML文档数目的增加,聚类时间会急剧增加。基于XML的层次结构,本文做了一些语义上的改进,并根据XML的层次结构定义了XML文档的相似性。在事物数据和CLOPE等增量式聚类算法的启发下,基于这种层次结构相似性进行了不需要两两比对的聚类。实验结果表明增量式XML聚类方法避免了XML文档两两相似度的计算,大大加快了XML的聚类速度。
其他文献
制粒与包衣是中药片剂生产过程中的两个关键环节。目前中药产业的生产先进技术应用成熟度和自动化与智能控制程度均不高,造成中药有效成分含量低、杂质多,质量不稳定、生产成本高、浪费和耗能大等问题,制约了中药产业标准化、现代化和国际化进程。因此,采用先进单元制造技术及其装备,并应用在线检测等新方法和新技术,优化各工艺参数,对于实现传统中药生产工艺技术与设备的升级与改造,解决中药生产过程质量控制的难题,保证产
人们在网络上购买商品后,习惯于在商家提供的平台上留下对产品优劣的评价。潜在的消费者可以通过产品评论了解产品信息来决定自己的选择,商家也可以根据评论来学习别人的优点改
随着现代社会经济的发展,高层建筑、地下建筑、大型石油化工企业日益增多,火灾事故日趋严重。减少人员伤亡和财产损失是火灾应急管理的首要目标。消防救援作为社会保障力量,能否
随着移动物联网的发展,人们对服务的要求也越来越高,如何提供高质量的满足用户需求的服务,并且做好安全隐私保护也成为目前研究的热点问题。本文也正是在移动物联网的背景下,针对
异构多核处理器由多个在性能和功耗上具有巨大差异的核组成,这些差异为本文优化处理器的能效提供了可能。根据任务在执行过程中表现出的不同特征将其迁移到合适的核上执行,可
近年来,高性能计算和大数据分析的发展对页缓存系统的容量要求越来越高,然而动态随机存储器(Dynamic Random Access Memory,DRAM)由于价格昂贵和扩展性差等问题限制了页缓存
目前,腰椎病已经成为我国的常见病和高发病,且已出现低龄化的趋势。虽然腰椎外科手术近年取得了很大的发展,但是由于腰椎手术本身特点及其结构的复杂性,手术难度和危险性很高。 
随着互联网开放程度的加大以及信息交流与共享的进一步增强,通过网络来传播恶意代码成为恶意代码入侵的主要形式。同时,随着恶意代码编写者水平的提高,恶意代码的欺骗性和隐蔽性
现代易货贸易的兴起为电子商务注入了新的活力,也为企业解决资金困难的问题带来了便利。易通网是在现代易货贸易的基础上,开发的一个全新的面向企业的易货交易平台。在传统的电
图像修复技术,一般地,是指对图像中指定信息缺损区域进行视觉上合理填充以恢复图像完整性的过程,并且观察者事后难以察觉图像曾经缺损或被修复,从而达到各种特定的图像处理目的。