基于XML数据库的数据挖掘研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:george_ding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,XML已经成为一种数据交换的标准形式,越来越多的数据以这种形式进行存储,在这些数据中隐含着大量的知识信息,需要进行数据挖掘处理。目前针对XML数据挖掘的方法,大多数需要经过预处理过程将XML数据转化成关系型数据,再用传统的数据挖掘方法进行处理,过程复杂且效果并不理想。因此,人们迫切需要一些有效的方法直接对XML数据进行挖掘。将XML数据存储到用于存储和处理XML数据的专用数据库中,就可避免繁琐的数据转换过程,并为直接对XML数据进行挖掘提供了一个良好的平台。在以XML数据库为存储方案的基础上,将XML相关技术与传统挖掘方法相结合,给出了基于XML数据库的关联规则挖掘方法。这个方法有四个基本步骤:用DOM和Schema技术把各种类型数据转换成符合规范的XML形式;通过XML数据库提供的存储接口将符合规范的数据存储到XML数据库中;用XQuery技术实现关联规则挖掘算法直接对XML数据进行挖掘;将挖掘出的关联规则存储到XML数据库中并用XSL转化成用户定义的形式显示出来。挖掘过程是处理的核心部分。针对以往不能对群组XML文档进行内容挖掘的问题,借鉴基于划分的思想,采用XQuery实现Partition算法来进行挖掘。在该挖掘过程中,先分别从每个XML文档中提取局部频繁集,然后合并所有的局部频繁集得到候选全局频繁集,最后从候选全局频繁集中提取最终的全局频繁集。实验表明基于XML数据库的数据挖掘方法能够有效的从XML文档中抽取出关联规则。
其他文献
随着互联网技术的高速发展,各种异构的无线网络随之孕育而生。未来无线通信领域,必将是一个多种异构无线网络融合的趋势。因此,用户如何能够在多个异构网络覆盖的区域,通过合
P2P(Peer-to-Peer,即对等网络)是近年来广受IT业界关注的一个概念。由于广大的网络终端节点(普通用户拥有的节点,即通常意义上的终端设备)的计算和存储能力以及连接带宽随着摩
随着网络技术的普及,越来越多的学校建设了自己的校园网,校园网为信息和技术的交流提供了更大、更广阔的空间。基于网络技术开发的计算机辅助教学系统,已成为一种新兴的教学媒体
Web服务是当前万维网技术讨论的热点,作为一种分布式技术的革新,它最大的优势在于定义了应用程序之间交互的标准化,并且使用XML作为数据传输的中间格式,突破了应用程序所在平
随着现代生物技术的不断发展特别是基因组计划的实施,人们不断获取大量的基因序列数据,准确、高效的对基因序列数据进行分析并挖掘出隐藏在其中的对人类有用的信息是非常必要
在过去的几年里,随着数字化的不断深入以及网络应用呈指数式的上升,通过因特网来进行视频监控变得越来越流行。其主要原因是该技术背后蕴藏着巨大的市场,如视频聊天,远程监控,远程
随着无线终端设备使用的日益广泛以及互联网技术的飞速发展,它已经和人们的生活有了越来越多的联系,无线网络已经成了很多人生活中必不可少的一部分。同时无线局域网的安全性
随着网络的迅速发展,网络逐渐融入人们的生活当中。微博近三年急速发展,突发事件检测及溯源已成为热门的研究方向。通过突发事件检测技术,帮助人们自动检测突发事件,随后借助
电子商务在当今世界经济中发挥着日益重要的作用,同时电子商务的安全性问题也变得越来越重要。目前电子商务的安全技术中的高代价、易用性差、互操作性差已经成为了解决信息安
概念格作为形式概念分析理论中的一种核心数据结构,是近年来获得飞速发展的数据分析的有力工具,用来发现数据中隐藏的知识模式。在知识发现的过程中建造与应用概念层次结构进