频繁子树挖掘在XML挖掘中的应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhongxuanshiye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的快速发展,网络上的数据越来越庞大,而且数据的类型也越来越繁多,如何有效地利用这些数据,从中提取用户所需要的信息,已经成为现今的一个研究热点。频繁子树挖掘作为数据挖掘中的一个重要研究方向,在XML挖掘、生物信息学、网络日志分析、药物分子设计及其功能预测等中具有十分重要的研究价值,受到了专家学者的广泛关注。XML作为Internet上数据描述和交换的标准,具有结构化、可扩展性、开放性、通用性、灵活性等特点,并且XML和树具有相类似的结构,因此可以将频繁子树挖掘技术应用到XML挖掘中,解决具有复杂层次结构的XML数据挖掘问题。本文研究频繁子树挖掘算法和频繁子树挖掘在XML挖掘中的应用,提出一种频繁子树挖掘算法,以及用树模式来描述XML数据的频繁模式挖掘过程。主要研究工作如下:(1)介绍频繁子树挖掘技术和XML数据挖掘技术,阐述XML语言的由来、定义、基本结构及特点等。介绍频繁子树挖掘中常见算法及一般处理过程,以及频繁Induced子树与频繁Embedded子树挖掘等概念。(2)介绍非确定树蕴含集、确定树概率和非确定期望支持度等概念,以及非确定树期望支持度计算方法。提出一种非确定树挖掘算法,利用哈希表快速匹配的特性降低求解期望支持度过程中树同构判定的时间复杂度,利用层次搜索空间来挖掘非确定树,使得非确定树挖掘快速而精确,较为有效地解决了在实际应用中树的非确定性问题。(3)研究非确定树挖掘在XML中应用,阐述XML频繁模式挖掘与XML文档聚类方法,以及XML文档相似性度量方法。将XML文档表示成非确定树模式,运用非确定树模式挖掘算法对其进行挖掘。
其他文献
当前网络的规模和复杂性不断增加,Internet服务提供商和用户都希望了解自己提供或正在使用的网络的性能。端到端的网络性能测量技术为网络的管理,故障的诊断,设备的部署,应用的开
对于无线传感网络应用系统来说,节点的可靠定位十分重要,它是定位应用系统正常运行的基础。在本文中,我们从节点定位的安全性与稳定性两方面来研究实用应用系统中的可靠定位
随着信息技术的快速发展,人们可以通过网络等方式便捷地获取大量信息。但是,随着信息的大规模化和复杂化,人们提取有价值信息的途径越来越困难。数据挖掘为人们从海量信息中
如今是信息爆炸的时代,伴随着互联网技术的迅速发展和越来越多的智能信息设备相互串联在网络中,产生了庞大数量的网络数据。维克托.迈尔-舍恩伯格在《大数据时代:生活、工作与
随着信息科技的进步和互联网的日益普及,人们通过Inernet足不出户就可以享受网络服务带来的便利,同时人们也承担着“信息过载”的压力,如何快捷准确地提供满足用户需要的信息
传统的信息查询技术基本上都是基于关键字的匹配,其查询性能不高,用户需要花费大量时间对查询结果进行再过滤,有时还找不到所需的信息。从TimBerners-Lee提出语义网的概念起,
粗糙集是一种处理含糊和不确定性信息的新型数学工具,其主要思想是,在保持信息系统分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。但是,数据的不完备或者对
随着计算机应用的日益广泛,人们对信息系统的依赖程度越来越高。在享受各种计算机应用如电子商务、电子政务系统给人们带来的便捷生活的同时,信息安全的问题日益严重。因为大
基于UML与Petri网两种不同工具开展工程建模,涉及到两种模型的映射转换基本规则,实现自动转换功能,发挥优势互补,共同完成分析设计的建模与性能分析的重要作用等技术要点,已
近年来随着卫星通信技术的迅猛发展,卫星网的建设工程越来越多地应用到很多领域中,在军事和民用通信中发挥着重用的作用。在卫星网通信研究领域中,如何选择卫星通信技术体制