频繁子树挖掘及其相关技术的研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:Garyzhaoqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与信息技术的发展,人们在日常事务处理和科学研究中积累了大量数据。如何从中提取或“挖掘”用户所需要的信息,是当前信息科学技术领域面临的一大挑战。数据挖掘正是在这样的背景下发展而来。目前,数据挖掘及其应用己经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经网络等领域取得了丰硕的成果。频繁模式挖掘是数据挖掘领域的一个基本问题,其研究范围包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析,周期分析,最大模式,闭合模式,查询,分类,索引等等。在现实积累的大量数据中有一类诸如树、图等结构化的数据,它们具备很强的层次表达能力,几乎能够模拟所有的事物之间的联系,因此基于树的数据挖掘有着广阔的应用空间,如Web挖掘、空间数据挖掘、生物信息学中蛋白质结构挖掘、药物分子设计及其功能预测等等。如何发现挖掘频繁子树的高效算法,已日益成为数据挖掘中的一个新的研究热点,对频繁子树挖掘算法的研究将成为一个具有重要的理论意义和应用价值的研究课题。本文主要研究工作包括:(1)提出了一种基于子树向量的快速导出子树挖掘算法??ITMSV (induced subtrees mining based on subtree vector)。算法基于子树向量和哈希表构建一个多层的数据结构,在挖掘过程中能够减少树同构的判别时间,并且只需要进行一次数据库的扫描操作,减少了扫描次数,提高了算法的运行效率。(2)提出了一种可以在大型树数据库中高效挖掘无序树的算法??UTMiner(unordered trees miner),由于所挖掘的树具有无序的特性,因此为了避免挖掘出相同子树的情况,本文提出了一种高效的无序树的标准化方法,将无序树转化为标准化子树,再利用本文提出的快速有序树挖掘算法得到所有的标准化子树。(3)提出一种基于最小闭树特征集的聚类与分类方法,有效地解决了在实际应用中因数据量大而无法聚类与分类的问题。其基本思想为:提出以最小闭树特征集作为候选聚类与分类特征,并采用动态阈值按相似度聚类方法,使得树聚类快速而精确,提出树分类规则等级概念,并应用于树分类方法中,能迅速预测未知的树结构。
其他文献
随着气象业务的不断发展,对于自动站雨量数据的处理和管理的需求日益增加。大量雨量数据与空间信息联系密切。如何高效、直观的处理雨量数据,是一个亟待解决的问题。由于GIS
无线自组网(Ad Hoc网)因具有独立性、拓扑结构动态变化等特点,在一些不便预先铺设网络设施的诸多应急通信中得到了广泛应用。然而,由于其网络拓扑变化以及节点的移动,导致路
运动目标跟踪方法的研究和应用是计算机视觉的一个重要分支,现日益广泛应用于科学技术、国防建设、医药卫生以及国民经济的各个领域,有着不可估量的发展前景。由于被跟踪目标
在互联网飞速发展的时代,传统专家系统的局限使得基于Web的专家系统开始被研究和应用,这是专家系统必然的发展方向,但是现有的基于Web的专家系统的开发却面临缺乏相应的合适
软件定义网络(software defined network)通过控制面和转发面的分离解耦,为动态配置网络和控制网络提供了丰富的可编程性,是近年来发展势头十分强劲的一种新兴网络架构。而传
与传统的车辆检测器相比,基于视频图像处理与视觉技术的车辆检测器具有处理速度快、安装维护便捷且费用较低、可监视范围广、可获取更多种类的交通参数等诸多优点,因而近年来
P2P技术日益成熟、网络带宽不断增加和终端系统服务能力的逐渐加强,端系统的服务能力占总体服务能力的重要一部分。近年来,这些资源如何得到充分利用,并在面向Internet的大规
随着虚拟现实和3D可视化仿真技术的发展,物理仿真开始广泛应用在电影,动画,游戏,计算机辅助设计,甚至军事模拟等领域。物理仿真引擎用于快速开发可视化物理仿真系统。在可视
落叶松根系为树形分枝结构,主要由初生根、次生根、初生根一次侧根、次生根一次侧根组成。各级根系之间具有明显的自相似性,本文基于L-系统理论构建落叶松根系生长模拟模型,
随着Internet的高速发展,各种形式的新型应用层出不穷。特别是以Web2.0为代表的新一代互联网应用,给传统的数据存储模式带来了极大的挑战。以往的Internet服务几乎都基于Clie