基于双空间搜索频繁项挖掘算法的研究及实现

来源 :沈阳化工学院 沈阳化工大学 | 被引量 : 0次 | 上传用户:FXH_590590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)已经成为计算机科学界的一大热点,是当前最为活跃的研究领域之一.关联规则(Association Rules)挖掘是数据挖掘中一个非常重要的研究方向.自从Agrawal等人于1993年提出著名的Apriori算法以来,该算法已经成为关联规则挖掘中的经典算法,并得到了广泛的应用.该方法是一种自底向上的有效挖掘方法,但对于长频繁项的挖掘,该方法会遇到非常耗时的巨大计算问题.该文对Apriori算法进行了改进,对生成的每个k频繁项按其对应的支持度分为:等于最小支持度的Lk1、等于最小支持度+1的Lk2和大于支持度+1的Lk3.并对此三组频繁项按照论文中介绍的定理进行修剪.分类处理频繁项集Lk:对Lk1、Lk2分别利用在两个空间上的交替计算来挖掘k+1频繁项;对于Lk3,则按照Apriori算法的思想把其组合成长度为k+1的新频繁项.最后对k+1频繁项再进行上面的步骤,直到新生成的频繁项集为空时,结束循环.由于修剪掉了很多不必要的频繁项,因此使Apriori频繁项挖掘算法减少了很多组合过程,较好地解决了长频繁项的挖掘问题.Apriori算法只是利用了频繁项的计数特征,忽略了结构特征,只能一步一步地计数,不能很快地发现频繁项.在双空间搜索频繁项挖掘算法(Dual Space)中,我们采用了项目空间、事务空间、X→T映射、T→X映射、事务相关集和项目相关集等新概念,充分利用了计数特征和结构特征两种信息,得到了一种很有前途的新的研究思路.实验证明这种思路是完全可行的.我们在Delphi开发环境下利用二进制表示方法实现了Apriori和Dual_Space算法,对两种算法的挖掘过程进行了详细的测试和分析.实验表明Dual Space算法具有线性的时间复杂度.特别是对于挖掘长频繁项,有着远远优于传统方法的效率.我们从理论分析和算法实现两个方面证明了Dual Space算法的有效性和完备性,在关联规则挖掘研究方面作了有益的探索和尝试.
其他文献
低速率视频传输技术是低带宽环境下实现数字视频编码传输的专门技术,也是实现个人通信的关键技术之一.本文研究了低速率视频传输中的若干关键问题,包括:比特率控制技术、感举
由于自身的固有特性,无线传感器网络在安全问题上与传统计算机网络有很大的区别,具体表现在安全特性、安全需求以及网络威胁等方面。在无线传感器网络安全相关研究中,入侵检
本文首先介绍了DSS的发展状况及基本结构,并对这些结构进行了比较分析,指出了其优点和存在的不足,论证了进一步深入探讨的必要性。其次,针对企业实际情况,对其生产过程进行了合理
决策支持系统是在管理信息系统的基础上发展起来的,它以模型库和数据库为基础,用定量的方式去辅助决策,可以提高决策的效能,并改善系统的管理,现已经成为信息领域的研究热点之一。
随着科学的进步,可编程控制器(Programmable Logic Controller,PLC)已得到极大的发展,但一般PLC已不能满足现代工控追求个性化和差异化要求,而具有开放的体系结构、强大的通
该文针对电加热炉这一控制对象,借助MATLAB的强大仿真工具,分别采用工业控制中普遍使用的PID控制、Smith控制和经常见到的模糊控制策略,如基本模糊控制、模糊—PID控制、Smit
从实际的角度讲,执行器输出的有界性是机器人系统在实现过程中必须考虑的问题.目前,为了设计快速、高精度控制器,大多基于对动力学以及不确定性的保守性补偿实现.这些措施使
在露天矿运营生产中,卡车作为主要的运输方式在矿区生产作业中占有重要角色,卡车在运输过程中的能耗占矿区运营成本的比重非常大,据资料统计,卡车能耗约占矿区成本的40~72%。
该文使用Kohonen+BP的神经网络技术作为Agent用户兴趣的学习原理.利用用户浏览过的文档作为输入学习样本及对文档的评价值作为输出学习样本,由于受到人为因素影响存在一些矛
该文对大庆油田"钻井井底压力模拟试验装置"进行了分析和研究,重点解决钻压伺服控制系统和模拟井底四维压力控制系统两大技术难题.首先,在调研国内外先进的钻井井底压力模拟