大数据库中频繁模式挖掘算法研究及应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:minhu315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展和互联网的迅速普及,导致在各个应用领域的数据库中存储了大量的数据,这些数据集中包含着很多有用的知识,因此如何从各种大型或密集数据库中发现所隐藏的、预先未知的信息,显的尤为重要,这正是数据挖掘所要完成的任务。关联规则挖掘是数据挖掘领域中成果显著而且比较活跃的研究分支。其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解而且是从大型数据库中提取知识的主要手段,因此,关联规则挖掘成为数据挖掘中的热点问题。关联规则挖掘过程包括:首先是将现有的数据库转换成事务数据库的形式(transaction database),然后采用适当的算法从事务数据库中挖掘出所有的频繁模式,最后由频繁模式生成有价值的关联规则。其中的第二阶段发现频繁模式是关键,它将决定关联规则挖掘的正确性和挖掘的效率。因此,大部分研究都集中在频繁模式的产生上。目前的频繁模式挖掘算法都过分的依赖于大量的计算,进而导致对内存空间的依赖,当参数需要调整时,造成重复的I/O扫描。这都无法满足对大型数据库挖掘的要求。因此寻求减少对内存空间的依赖,降低重复I/O扫描次数的新方法就成为文章的研究内容。通过研究发现,影响频繁模式挖掘算法效率的因素主要有两个:1数据库中事务布局方式的不合理;2算法本身存在的问题。所以本文主要从这两个方面进行改进。具体工作体现在以下三个方面:1、.敏感性分析在数据挖掘中的应用研究:数据挖掘被视为一种把数据转化为信息,把信息转化为行为,把行为转化为价值或利润的过程。最近的研究大都集中在静态环境中利润的挖掘。敏感性分析方法能够预测模型输出结果的变化率。本文研究了利用敏感性分析这一方法在动态环境中对利润挖掘所起的作用,最后给出了应用该方法对利润挖掘的执行步骤。2、在研究了传统的事务数据库布局方式:水平布局方式和垂直布局方式的不足之处,提出一种新的事务在数据库中的布局方式-交叉布局方式。该布局方式能够有效减少I/O重复扫描的次数,特别是当参数经常改变时。从而提高查找频繁模式的效率,进而提高关联规则挖掘的效率。3、提出一种新的频繁模式挖掘算法-QFP算法。该算法利用了交叉布局方式的数据存储结构,首先对每一个频繁项建立一棵QFP树,然后根据条件对每棵树进行挖掘,直到找出符合条件的频繁模式。此算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率。
其他文献
生物免疫系统是一个高度进化的生物系统,它旨在区分外部有害抗原和自身组织,从而清除抗原,保持有机体的稳定。从计算的角度来看,生物免疫系统是一个高度并行、分布、自适应和
集成电路测试技术是生产高性能集成电路和提高集成电路成品率的关键。随着集成电路制造技术的发展,电压测试和稳态电流测试方法已不能满足高性能集成电路的要求。90年代中期
在水利系统中,水库闸门作为最基本的水利工程,在水利资源利用和防洪抗旱中起到了十分重要的作用。水库闸门开度测量的准确性,不仅关系到水库闸门控制的准确性,而且还关系到水
操作系统安全是计算机安全的必要条件。开源Linux操作系统为我国发展以Linux为原型的自主产权的安全操作系统提供了良好的机遇。访问控制是安全操作系统中最重要的特性之一。
传统的计算机与人的交互中,人主要是通过键盘和鼠标对计算机发出指令的,而计算机则主要通过显示器向人传递信息。随着计算机的飞速发展,人们越来越不满足于仅仅通过键盘和鼠标这
空间曲面网格模型是虚拟现实系统中描述形体模型的最基本工具,也是科学计算、科学计算可视化、有限元分析的基础模型。在基于计算机图形学的网格处理算法的研究过程中,人们把更
随着计算机技术的飞速发展,计算机系统的性能越来越成为计算机系统成功的关键性因素,这一方向的研究成为了计算机领域的热点之一,计算机性能工程也发展成为了一个为解决计算机系
快照备份技术是提高系统可用性的一个行之有效的方法。在对影响磁盘阵列系统可用性的因素进行分析的基础上,深入研究了磁盘阵列实现的各种方法、磁盘阵列(Redundant Array of
机会发现(Chance Discovery)和机会管理(Chance Management)是国外学者于2000年前后提出的一个新的研究课题。因此对“机会”的特性,它作为一个独立的研究领域的必要性,它和传统的
计算机仿真技术是以计算机为工具,以相似原理、信息技术以及各种相关应用领域的基本理论与技术为基础,根据系统试验的目的,建立(实际或设想)系统的模型,并在不同条件下,对模型进行