基于利润约束的频繁项集挖掘算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yayayaoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术和计算机技术的不断发展,其应用范围越来越广泛。在企业资源管理系统中产生海量的与企业管理与日常运营相关的数据。其规模已远超过人类可以直接处理的范畴。如何处理大量的数据并发现数据中蕴含的对企业运营与发展有益的信息成为企业面临的问题之一。在此背景下,数据挖掘营运而生。关联挖掘是数据挖掘的重要分支,其目的是从大批量的数据中挖掘出项之间的关联和满足特定条件的模式。自关联规则挖掘的概念提出至今,该技术不断地发展成熟。关联规则经典算法Apriori算法也引起了众多的研究和改进,并得到广泛应用。商品的利润是企业运营中关注的重要指标,用户对具有高利润的关联模式具有更高的兴趣。而传统的关联规则挖掘算法改进算法多是基于布尔类型的挖掘算法,其主要关注项的发生频率,没有考虑到商品的具体利润以及在每个事务中的销售数量。一方面,基于支持度框架的关联挖掘会挖掘出大量的关联规则,用户很难从中发现对实际行动具有指导意义的关联。另外一个方面,基于支持度框架的关联挖掘算法挖掘出的关联并不一定是用户感兴趣的高利润关联规则。文中经过对基于利润的项集特点进行分析,阐述了Apriori的支持度约束对于基于利润的频繁项集挖掘的不足之处,并且基于利润的频繁项集不具有Apriori中频繁项集的向下封闭特性。从而在基于利润为目标的频繁项集挖掘任务时,经典的关联规则挖掘算法具有一定的局限性。本文针对基于利润约束的频繁项集挖掘任务,提出了基于利润频繁项集挖掘相关的基本概念,并根据项集的利润的特性,提出了对基于利润约束频繁项集的利润支持度约束和利润有效度评估标准。深入研究了基于利润约束的项集挖掘的特点,提出了基于期望事务计数的剪枝规则,证明了期望频繁项集的向下封闭特性。并设计了基于利润的频繁项集挖掘算法。该算法主要分为两步,首先利用期望事务计数的剪枝规则挖掘出频繁项集,然后及对挖掘出频繁项集进行有效度评估并输出挖掘出的有效频繁项集。为了提高算法运行效率,研究了算法挖掘过程的任务拆分时保证算法挖掘结果完备需要解决的问题,设计了基于利润的频繁项集并行挖掘算法。基于SAP并行框架实现了基于利润的频繁项集挖掘并行算法。同时实现了基于利润的频繁项集挖掘非并行算法,以及Apriori算法。并对算法在合成实验数据集和网店销售数据集上进行了对比试验和分析。综合两个数据集的挖掘实验结果和结果分析,证明了基于利润约束的频繁项集挖掘算法能够有效地提高挖掘出项集的利润,同时大幅减少挖掘出项集的数量,有效地提高了算法挖掘结果的质量。通过算法效率实验,验证了并行算法的稳定性以及高效性。
其他文献
随着移动互联网的发展,移动互联网应用能够更好地满足用户在学习、生活、工作方面的需求。互联网新闻见证了网民自PC互联网到移动互联网的迁徙,移动新闻客户端成为移动新闻市
磁流变液作为一种智能流体,因其具有良好的可控性和迅速响应性而备受减振领域科研和工程技术人员的关注,并且其在减振领域已经获得了一定范围的应用。为进一步拓展磁流变液的
随着互联网行业的迅猛发展,网络上充满了各种各样的信息。为了解决信息过载所带来的负面效应,提高用户对信息的利用率,一种智能的信息过滤系统应运而生,它就是个性化推荐系统
随着农村经济的发展,农村居民对居住环境的质量的需求逐步提高。近年来农村居住建筑面积逐年增加,农村建筑能耗也日益增长。陕南大部分地区在我国热工设计规范中属于夏热冬冷
近年来,极地地区受全球气候变暖影响越来越明显,尤其是北极地区近十几年来夏季海冰的范围与海冰厚度在不断下降,使得北极航线开通的可能性大幅增加。除此之外,北极地区所蕴含
无线网络及智能设备的快速发展催生出了一种新型的感知网络,即移动群智感知网络。移动群智感知网络将大量携带智能设备的参与者作为感知节点,但是这些参与者通常不是无偿参与
目的初步评估汉口江滩血吸虫病防治一期工程的灭螺效果,为进一步降低江滩钉螺密度,改变江滩钉螺滋生环境提供决策依据。方法以汉口江滩血吸虫病防治一期工程为研究对象,采用
长期以来,信息搜寻行为领域倾向于关注主动的信息搜寻方式,而对被动的信息获取方式——信息偶遇研究较少。在线信息偶遇作为一种在网络上获取信息的常见方式,在近年来逐渐引
随着纳米发电机技术的快速发展,智能化的运动传感器、可穿戴电子设备及人机交互领域得到了越来越多的关注。受限于外部电源和体积,传统运动传感器不具备现代智能化传感器的可
网络短时流量预测有利于网络运营商了解当前网络的运行情况,在网络资源配置、异常检测等方面具有着重要的意义。网络短时流量预测的预测精度、运行速度对运营商进行有效的网