基于改进蚁群算法的频繁项集挖掘的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:myqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则是数据挖掘研究领域中一项重要的研究课题。蚁群算法是受到蚂蚁觅食的集体行为启示而设计的智能算法,作为智能算法的重要分支受到研究人员的广泛关注,它具有鲁棒性、分布式、自组织性、正反馈性等特点。   本文介绍了关联规则的相关知识,关联规则中频繁项集挖掘的经典算法的思想、优缺点,同时介绍了蚁群算法的基本思想、算法和特点。在此基础上,针对目前关联规则中频繁集的挖掘效率不高的问题,结合蚁群算法在旅行商问题中最短路径求解过程与频繁项集的挖掘过程的共同点,借鉴蚁群算法在旅行商问题的成功应用,本文将关联规则中频繁项集的挖掘转化为TSP最短路径问题,利用蚁群算法的思想进行挖掘,同时结合频繁项集挖掘的特点,设计了一种新的信息素计算方法,以及一些调整措施,提出了用于频繁项集挖掘的蚁群算法,该算法避免了大量候选集的产生,提高算法的运行效率。在UCI数据集上的实验结果表明:与传统的Apriori算法相比,利用蚁群算法可以在较短的时间里挖掘出绝大部分的频繁项集,能够有效地进行频繁项集的挖掘。   同时,本文还针对现有算法在最小支持度取值比较小时,算法挖掘的效率不高的缺陷分析了原因,主要是由于低支持度的频繁项集丢失,蚂蚁选择低支持度事务项的概率不高,而集中于高支持度事务项的挖掘,可能出现早熟收敛。为了提高现有算法的挖掘效率,本文在已有算法的基础上,提出了三项改进措施:将蚂蚁初始位置限定在低支持度的事务项内,寻找高频组合,局部减少信息素。通过采用这三项改进措施,减少了蚂蚁对低支持度的事务项选择的随机性,缩小了蚂蚁的挖掘范围,降低了高支持度事务项的影响,增大了蚂蚁对低支持度事务项的探索,从而减少低支持度频繁项集丢失。实验结果表明:与改进前的算法相比,改进后的算法在保持改进前的算法在时间上的优势的前提下,提高了频繁项集挖掘的百分比,提高了挖掘的效率。
其他文献
Web服务是实现面向服务的架构(Service-Oriented Architecture,SOA)的方法之一。SOA的最大优点是可以通过组合已有的服务来快速开发部署新的业务,这些服务可以属于同一组织,也可分
随着科学技术的发展,煤矿生产安全监控系统日臻完善,大多数煤矿都安装了视频监控系统。煤矿视频监控系统在煤矿的安全生产中发挥了重要作用,然而矿井下粉尘多、光照差的恶劣
学位
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主题的搜索引擎应运而生。主题爬虫作为主题搜
现下于人们的日常生活中,基于地理位置信息的服务(LBS,Location-Based Services)是一种经常性被使用的应用服务,绝大多数以LBS为核心的实际应用都依赖于路径规划技术,以提供
Web Service是一种新的web应用程序,为应用程序之间的互操作提供了一种标准的方式。Web Service使不同平台和系统的客户端,能够调用由不同语言开发的服务功能。Web Service体系
试题库自动组卷问题是一个多目标优化问题。本文首先分析了试卷的评价指标以及各项指标的作用,建立了各评价指标约束构建的试卷模型;然后,针对自动组卷系统的自身特征,重点对
随着互联网的迅速发展以及移动智能终端的普及,越来越多的用户在以微博为代表的社交网络上表达自己的观点和情感,由此产生了大量富有情绪表达的文本信息。近年来,情感分析研
在1998年,网络信息检索领域有两种重要的网页排序模型被提出,它们分别是HITS(Hypertext Induced Topic Search)[5]和PageRank[11]。PageRank由于其固有的对恶意网页的抗干扰
虚拟机技术的出现,满足了人们不断增强的计算需求,确保了各种平台上的应用的正确性与可靠性。资源受限的智能卡领域,Sun公司为其开发平台制定了Java卡开放标准。支持Java卡标
在实际生产过程中时滞现象普遍存在,时滞现象的存在会严重影响系统的稳定性以及系统的性能。滑模变结构控制(SMVSC)的滑动模态对于匹配的参数不确定性以及外界扰动具有完全的