基于频繁子树挖掘的XML聚类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:woshi19891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML数据由于其开放性、通用性、半结构化等特性,已经成为互联网上数据表示和交换的标准。随着XML应用的不断扩展,大量数据源产生出千差万别的XML文档,它们所遵循的文档模式(DTD或XML Schema)也各不相同。对异源XML数据集合进行处理的一个关键技术,是将XML文档根据结构相似性进行分类并提取DTD。基于同一DTD的XML文档间会有较多的相同子结构,对于规模较大的XML文档集而言,表现为频繁子树。本文研究基于频繁子树的XML聚类算法。主要工作包括:   1、概述现有的针对XML文档的聚类方法,指出这些方法的不足之处,提出了新的解决的思路,即基于频繁子树进行聚类,并阐述了理论依据。   2、在经典频繁子树挖掘算法FREQT的基础上,引入了等价类扩展的思想,提出了FROTreeMiner算法,该算法大大减少了产生的候选子树数目,可用于挖掘频繁递归有序子树。   3、基于频繁子树挖掘结果,本文提出两种XML文档相似度计算方法:第一种方法结合了向量空间模型和频繁子树构建频繁结构特征向量,通过特征向量来计算相似度。第二种方法先构建了全局的频繁子树包含关系表,通过该表可以找出文档包含的最大频繁子树和文档间最大的共有频繁子树,并以此为基础定义了XML文档相似度计算公式。在得到文档的相似度后,通过最小生成树来进行XML文档的聚类。   4、实验表明了(1)FROTreeMiner频繁子树挖掘算法效率高于经典算法FREQT。(2)基于频繁子树的聚类算法在应用于XML文档分类时,比传统算法具有更高的准确率和性能。
其他文献
随着社会的发展以及科技的进步,Web社区的影响力日渐增大,社区强大的用户网使得重要信息能迅速得到社会关注,用户针对产品、话题、政策等发表的观点和建议也为企业营销、政府网
随着计算机技术的快速发展,传统的人机交互方式已经无法满足日趋复杂的交互需求,笔式交互等新型人机交互方式逐渐成为研究的热点。在移动互联网的时代,智能手机、家庭娱乐系统等
随着多媒体业务和实时业务的快速普及,在无线Mesh网络中提供更好的服务质量(QoS,Quality of Service)保障变得越来越重要。无线Mesh网络QoS路由实质上是满足多约束的优化问题,已
近年来,随着ERP、电子商务的迅速发展,越来越多的企业开始重视数据仓库的建设,以从大量数据中获得有用的信息,为企业带来经济效益。相对于数据库管理系统,数据仓库系统具有面
图像去噪技术的研究目前还是一个热点难点问题。近年来学者已经提出很多复杂巧妙的去噪算法,但大部分都只能局限于一定的适用范围。也就是说,只有当图像模型符合算法的假设时,才
面对人类社会的快速发展,为社会提供服务的软件系统也一同更新换代,而不规范的软件开发流程和系统长期的演化使得软件更新更加困难。这些投入使用多年但又极其重要的遗留系统,拥
三维建模与变形技术在模具生产、动画制作、地球科学、物理科学等领域越来越受到关注。众多学者将草绘作为三维几何建模和变形的首选交互工具,他们设计了多种算法和系统。 
软件是充满错误的,而修复错误最重要的前提,就是如何快速地定位错误,这往往也是在软件开发周期里花费人力物力最多的一步。因而任何可以降低错误定位代价的技术都是非常有吸
在高校中,现代信息技术综合应用的重要领域之一就是基于WEB的教学管理系统,这种系统也是实现教育管理信息化的丰要方式。随着教育事业的改革不断深化,面对更多更快的要求,教
随着互联网产业的快速发展,主题模型作为近些年来在文本挖掘中出现的一种概率模型逐渐成为了国内外的研究热点,其应用几乎覆盖了文本挖掘和信息处理的所有领域。   短文本可