基于XML的频繁模式发现研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：taozhzzl

【摘要】

：

XML是一种自描述的元标记语言,它是完全面向数据的。它的扩展性和灵活性允许其描述不同结构的Web站点的数据,从而能够使不同来源的数据容易地结合在一起,因此人们逐渐采用它

【作者】

：

张忆

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2006年期

【关键词】

：

Web挖掘 XML 半结构化数据模型标记有序树频繁子树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML是一种自描述的元标记语言,它是完全面向数据的。它的扩展性和灵活性允许其描述不同结构的Web站点的数据,从而能够使不同来源的数据容易地结合在一起,因此人们逐渐采用它作为信息表示和交换的标准。同时,由于基于XML的数据是自我描述的,数据不需要内部描述就能被交换和处理,这就为组织、软件开发者、Web站点和终端使用者提供了许多有利条件。随着XML的在各个领域的广泛使用,从XML中抽取有价值的信息就显得越发的重要,尤其是发现隐藏其中的规则和模式。因此,XML中的频繁模式发现问题就成为了一个重要的研究领域。本文介绍了数据挖掘、半结构化数据挖掘、XML的相关概念和研究现状,提出了一种面向XML的树型对象模型TOM。然后以TOM为数据模型,对XML中的频繁模式发现问题进行了研究,提出了一种基于XML的频繁模式发现算法XMLMINER。最后为了进一步提高算法的效率,我们使用了一种修剪策略对XMLMINER算法进行了改进。本文所做的主要工作和创新点如下: 1.分析了半结构化数据模型和XML数据内容,针对半结构化数据模型描述XML数据存在的缺陷,提出了一种面向XML的树型对象模型TOM,作为XML数据挖掘任务使用的数据模型; 2.在TOM模型的基础上,我们提出了XMLMINER算法挖掘XML中的频繁模式。XMLMINER算法的关键问题在于候选子树的列举和支持度计算。我们改进了TreeMiner算法的前缀等价类技术以产生候选子树,并采用出现列表技术计算候选子树的支持度; 3.提出了一种修剪策略对XMLMINER算法进行改进。根据修剪策略,我们可以直接从某些已知频繁子树中产生某些未知频繁子树,因此减少了算法在候选子树的列举和支持度计算上的开销,从而提高了算法的效率。

其他文献

基于VRS网络分米级差分GPS接收机的设计

本文主要阐述了基于目前成熟的VRS网络设计分米级差分GPS接收机。该系统设计过程主要从以下几个方面阐述：首先从实际出发，讨论本课题研究的意义和国内外的研究现状，简单的介绍了

学位

VRS差分GPS接收机

基于Ontology的数据语义检索系统的研究与设计

随着网络技术和软件技术的飞速发展，特别是Internet／Intranet的发展，大多数信息资源已不光只是结构性资料，而是出现了很多丰富多样的非结构化形式提供给使用者。各种信息资源迅速

学位

本题检索XML

可视化集成开发环境研究

现在人们对软件功能的要求越来越高，软件的编写越来越复杂，软件的规模越来越大，动辄数百万行乃至数千万行代码，用简单的文本编辑器编写代码，效率低下，不容易维护及调试，已经不能满足

学位

插件管理文本编辑代码自动生成集成开发环境可视化编程

基于CMMI的配置管理工作流模型的研究与实现

众所周知,能力成熟度模型CMM的过程改进对于提高软件开发的质量和生产效率是极其有效的手段,为软件产业的发展和壮大做出了巨大的贡献。从CMM发展到能力成熟度模型集成CMMI的

学位

CMMI软件配置管理配置管理系统配置管理工作流Bug跟踪

计算机组网虚拟实验系统的研究与实现

随着Internet技术的飞速发展,远程教学作为一种新型的教育模式已经成为近年来各国教育界的重要研究课题。其中实验教学的实现成为了研究的重点和难点,而虚拟实验是解决这一问

学位

计算机组网实验虚拟实验Form++产生式系统VRML

应用层组播通信技术研究

随着网络技术的不断发展，尤其是多媒体应用需求的增加，出现了一对多、多对多的组通信需求，针对互联网上的大规模一对多数据分发问题，有三种可选的通信模型，分别是纯单播，IP组播，应用

学位

计算机网络网络层组播应用层组播异构性NICE

基于信息熵的洗钱社区发现研究

目前,随着全球经济的快速发展及金融系统的信息化,金融网络中洗钱犯罪已受到各个国家的广泛关注,因此,金融网络中发现洗钱社区结构的研究已经成为人们关注的热点。　　本文通

学位

洗钱社区发现算法大额交易可疑交易社区发现信息熵

联机手写藏文识别特征提取方法的研究

本论文和相关研究得到国家自然基金(基金号：60273090)的支持。特征提取是联机手写藏文识别进行中的关键问题。围绕这一难题，本文依据统计和结构两种方法的优点，提出了统计与结构

学位

手写藏文识别特征提取统计方法结构方法

H.264视频编码标准中模式选择和快速搜索算法研究

JVT发布的新一代视频编码标准H.264,相对于其他早期视频编码标准有很大改进,性能较MPEG4和H.263++有明显提高。它在网络的服务质量适配性方面也得到加强,同时也促进了对视频

学位

视频编码H.264帧内预测模式选择亚像素运动估计

基于语义的资源管理与检索及其应用

在互联网的发展过程中,基于数据库的资源管理方法和基于统计的搜索策略发挥了重要作用,但随着领域资源的不断丰富,传统的方法暴露出一些不足。主要表现在:(1)由于缺乏语义信

学位

语义Web资源管理资源检索本体语义检索知识网格语义链网络

基于XML的频繁模式发现研究

与本文相关的学术论文