关联规则与超团挖掘算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:sjt111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。数据挖掘的主要目的是从数据集合中发现隐含的、事先未知的、对决策有潜在价值的用户感兴趣的知识。关联规则最初来源于对超市购物篮的分析,主要用于发现数据集中项与项之间的相关联系,是数据挖掘最先研究的问题之一,也是数据挖掘的一个热点研究方向。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。如何有效地发现、理解并运用关联规则,是数据挖掘任务中的一个重要研究方面。本文在数据挖掘研究和关联规则挖掘研究的背景下,展开了对关联规则挖掘算法的研究工作。首先分析讨论了数据挖掘技术的产生与发展现状、数据挖掘的基本过程、数据挖掘的主要任务;接着介绍了关联规则挖掘的基本概念、关联规则挖掘的算法研究现状、关联规则挖掘工作的扩展和应用,数据集的水平和垂直分布,分析了经典关联规则挖掘方法Apriori算法及另一个易于实现的Relim算法。本文接着重点讨论了h-置信度度量及其产生的超团模式,论述了交叉支持的概念及其相关的扩展问题。在此基础上提出超团挖掘中可以应用事务拆分的方法对事务集进行预处理,并探讨了事务拆分的方法及其正确性的证明。通过进一步的分析,证明在基于兴趣度度量的关联规则挖掘中,如果度量具备交叉支持性质,则都可以应用事务拆分的方式对数据集做预处理。本文提出了基于Relim算法的超团挖掘算法HRelim和极大超团挖掘算法MHRelim。以超团挖掘算法为基础,通过实验,探讨了事务拆分及事务压缩对HRelim算法带来的效率提高。通过实验,说明MHRelim算法在稀疏数据集上具有良好的挖掘性能。通过在算法Apriori,Relim,FP-growth上做的大量实验,得到算法在数据集的项不同排序方式下的效率差异结果,由此猜测在关联规则挖掘算法中,如果频繁项集的获取顺序是这样的,即总是先产生含有支持度最低的项的频繁集,并且由此使得每个频繁项产生的频繁项集数量均较为接近,则算法速度最快,称之为均衡法则。均衡法则在算法的效率改进和新算法的寻找上具有很好的指导意义。
其他文献
传统的公路裂缝识别算法主要使用图像处理相关技术来获得裂缝图像特征。这类方法在提取裂缝图像深层次特征方面效果欠佳,且识别效果也很难达到预期效果。随着计算机视觉技术
微粒群算法是一种模拟鸟群飞行、鱼群游动等生物群体社会行为的群体随机优化算法,由于它结构简单、运算速度较快,已广泛应用于许多领域。论文从智能体(Agent)观点出发,提出了
IMS是IP多媒体子系统的简称,它是基于IP的网络,能够提供语音、数据、视频等各种业务,被认为是下一代网络系统的重要演进方向。IMS网络安全态势评估系统主要对IMS网络的资产、
P2P技术在文件共享、内容分发、分布式计算等众多领域显示了其特有的极为广泛的应用,而且已经有越来越多的网络用户加入到P2P网络中,它的开放性、对等性、匿名性、自主性以及
云物流是一种基于物联网和云计算技术的物流服务新模式,它为资源整合与优化配置提供了一种新的思路。为达到上述目标,本论文提出了一种基于云物流资源虚拟化与服务组合的两阶段
随着我国国际影响力的迅速增强,越来越多的外国友人开始学习汉语。虽然孔子学院和各种汉语培训机构在世界各地迅速崛起,但无论是学校数量还是面对面的传统教学方式,都远远不能满
下一代网络中的业务执行环境主要负责为各种增值业务逻辑的执行提供运行环境,并为业务的管理提供支持。随着下一代网络业务种类数量的丰富,根据业务用户的个性化需求,运维人
路径规划是移动机器人研究领域的一个重要问题,它控制机器人在环境中按照预定的路径运动到目标点。本文以AS-R移动机器人为背景,对移动机器人的路径规划问题进行了研究。本文
随着机器人技术的不断发展,服务机器人的应用领域越来越广泛,除了工业、农业等传统领域外,其在医疗、文娱、家居等诸多环境中得到了广泛应用;同时人们对生活质量的要求不断提
随着互联网的普及和宽带技术的发展,以P2P对等网络技术为核心的软件产品正在为越来越多的网民所接受和喜爱。自2000年开始,国内外多家P2P软件产品产品纷纷问世,其中以国外Nap