关联规则中频繁与高效用项集挖掘算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:lhyu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则最早是挖掘频繁项集,以支持度为度量,挖掘数据库中频繁出现的项集模式。考虑到数据库中每个项目在事务中可以出现多次,并且不同项目可以有不同的权重,频繁项集被扩展到高效用项集挖掘,高效用项集挖掘能使用用户期望的效用度量方式挖掘出更符合用户需求的结果。本文主要围绕关联规则中的频繁项集挖掘算法与高效用项集挖掘算法的时间效率提升展开,具体内容包括以下2个方面:1)基于事务约简和2-项集支持度矩阵快速剪枝的Apriori改进算法。首先自定义了保存频繁1-项集的数据结构,计算候选项集支持度时,依据这个自定义的数据结构决定扫描的事务,之后引入事务约简优化,进一步对数据库中项目和事务进行约简,提出改进的MR-Apriori算法。随后,定义一种2-项集支持度矩阵,对候选项集进行快速剪枝,提出了改进后的MP-Apriori算法。再次,结合MR-Apriori和MP-Apriori算法改进策略,提出了改进的MRP-Apriori算法。最后,在mushroom和T10I4D100K进行实验,结果表明:改进的MRApriori算法和改进的MP-Apriori算法,运行时间都比原Apriori算法减少,而结合这两种改进策略的MRP-Apriori算法运行时间最短,从而最终验证了三种算法改进的时间效率。2)基于数组伪投影和事务合并的频繁高效用项集挖掘算法。在分析了单独考虑支持度或效用值的缺陷后,本文提出一种基于数组伪投影数据结构、递归构造前缀项集的投影数据库挖掘频繁高效用项集的算法。算法将支持度和效用值这两种度量手段同时考虑,挖掘数据库中那些出现次数频繁且效用值高的项目集合。为减小算法的搜索空间,提出了局部效用剪枝和子树效用剪枝两种剪枝方案,基于算法模型和上述剪枝方案提出FUIM-P算法。随后,观察到数据库中有许多可以合并的事务,根据FUIM-P算法的特点,将这种合并被扩展到投影数据库,引入了事务(投影事务)合并技术。同时,提出了一种自定义排序规则,以在线性时间内找到满足可以快速合并的条件的事务,提出最终的FUIM-MP算法。最后在mushroom、chess和accident数据集上进行实验,结果表明:FUIM-P算法的运行时间相比对比的FHIMA-ALL算法缩短,而加入了事务(投影事务)合并技术的FUIM-MP算法则较前两者时间效率有非常大的提升;另外,实验中mushroom、chess和accident数据集中大量可合并事务(投影事务)数目也很好地证明了事务(投影事务)合并提高算法运行时间的有效性。
其他文献
车联网(VANET,Vehicular Ad hoc Networks)近年来得到重点关注并在国内外进行了广泛研究。一方面是利用车联网提高道路上的安全避免用户在道路上发生交通事故或交通拥堵,另一
可观测宇宙中物质-反物质不对称问题,一直是现代粒子物理学、天体物理学和宇宙学亟待解决的重大前沿课题之一。随着高能物理实验水平的提高和理论知识体系的日趋完善,正电子
电化学传感器技术是技术最成熟,应用最普遍的传感分析方式,具有分析速度快,操作方便,灵敏度高,检测成本低,易于实时监测和实现自动化等显著特点。传统的电化学生物传感器主要
本文主要研究了一些自旋电子学材料,通过第一性原理,计算材料的电子结构和磁学性质。我们最主要的目的是研究材料的半金属性质,半金属性是指电子在不同的自旋方向表现出不同
恶性肿瘤是一种严重威胁人类健康的常见病和多发病,因其引起的死亡率占所有疾病死亡率的第二位,仅次于心脑血管疾病。当今全世界60亿人口中,每年约新增800万肿瘤患者,600多万
随着复杂网络的不断深入发展,对网络结构的探知要求也越来越严格,人们由此提出了社团检测算法并不断地进行深化改进。在现实网络中,节点与边的分布并不均匀,总是有着稠密或稀
非饱和带是连接大气与饱和带之间水量和能量循环的关键环节,除了固体骨架外,非饱和带内的孔隙被水流和气体完全充满,是一个典型的水-气二相流系统。众多研究表明气相的存在对
作为一种新型的融资模式,股权众筹是实现“大众创业、万众创新”的重要助推力量。一方面,股权众筹能够有效缓解我国中小微企业融资难的问题;另一方面,股权众筹让普通民众能够
在现代社会对各种疾病及时诊断需求不断增多的背景下,生物传感器因为自身突出的优势和特点,已经成为学界和产业界关注的热点。在生物传感领域,各种技术融合不断加深,特别是微
近年来,可见光通信(Visible Light Communication,VLC)以其在频谱、速率等方面的优势越来越受到人们的重视。与此同时,依托于电力系统发展起来的电力线通信技术(Power Line C