面向海量数据的关联规则挖掘算法研究

被引量 : 17次 | 上传用户:chenyinan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其中关联规则挖掘是最活跃的研究方法之一,最早是由Agrawal等人针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。但随着网络技术的飞速发展,以及数据库技术的进步,使得数据挖掘需要处理的数据规模越来越大。经典关联规则挖掘算法处理海量数据时,需要消耗大量的时间和空间资源,使得挖掘效果并不理想,因此提出了许多改进策略主要有数据约简、分布式并行处理、批处理、增量式处理等。本文针对海量数据集的特性,对关联规则挖掘算法进行了研究。首先针对海量数据集具有分布倾斜的特性,提出基于密度偏差抽样的加权关联规则挖掘算法。与随机抽样相比密度偏差抽样在处理分布比较倾斜的数据集时可以产生具有代表性的样本。并用抽样时获得的局部密度计算样本的权值进行支持度计算,不需要降低最小支持度,最后采用Fk-1×F1连接方式和apriori先验知识产生频繁项集。只需扫描一次数据集。实验表明该算法在处理分布倾斜的海量数据集时,不仅执行效率高,而且提高了正确性,是一种十分有效的处理海量数据集的关联规则挖掘算法。最后将该算法应用于入侵检测系统。其次针对海量数据集具有稠密的特性,应用粒计算理论和粗糙集原理,并结合关联规则挖掘算法,提出基于粒计算思想的关联规则挖掘算法。该算法利用粒子的性质,减少了大量的候选项集,而且应用深度优先搜索策略,进行频繁项集挖掘。最后用仿真实验证明了算法的有效性。
其他文献
随着人口的增长和经济的发展,自然资源的消耗随之加快,废弃物的利用技术越来越被各国所重视,而我国的自然资源短缺状况尤为严重,因此,城市污泥和湖泊底泥的资源化利用研究在我国就
随着电信改革的深入,中国网络通信集团公司进一步加快发展在G省的业务,首先推出了SCDMA无线市话业务,并以其优异的性能和灵活的业务策略,迅速打开了市场局面,在G省电信市场上赢得
基于原煤试样在单轴压缩作用下的失稳破坏试验,研究了原煤破裂过程中表面产生瞬变电荷的现象和变化规律,并分析了瞬变电荷与应力的对应关系。结果表明:原煤试样表面瞬变电荷是
东周王城遗址出土的青铜齿轮、钩卡,机械学中叫作棘轮、棘爪,二者配搭为棘轮机构。其制作年代为2300年前,是迄今为止考古发现的年代最早、具有制动功能的青铜机械构件,在人类
随着市场竞争的加剧、经济的全球化、信息技术的飞速发展以及客户需求日趋个性化,企业不得不以动态联盟的方式与上下游合作企业联结在一起,以整合企业自身资源和核心竞争力,充分
本文研究了对日汉语教材中的汉字设计问题。文章选取中国编写的针对日本学习者的汉语教材和日本编写的中国语教材为研究对象。结合日本学习者的汉字背景、认知规律,从字量、
改革开放以来,伴随着我国企业合并业务的发展,与企业合并相关的会计、税务问题日益成为人们关注的焦点。企业合并的会计和税务处理由于合并的特殊性以及相关法律法规的纷繁复杂
目的:了解贵州汉族部分遗传性状的分布特征。方法:对684名贵州汉族(男性186人,女性498人)睫毛、眼色、眼裂开度、眼裂方向4项群体遗传学特征进行活体观察。结果:贵州汉族长睫
本文研究了能够测量不同形状目标物形态参数的机械手视觉系统的设计与实现,介绍了机器视觉发展现状以及发展前景,叙述了检测技术可视化的基本原理,设计了机械手抓取控制系统。在
本文从多个角度对手机媒体广告市场的产业环境、产业链及商业模式、主要市场参与者、市场的现状及发展趋势等进行了全面的分析,并在此基础上,为手机媒体广告市场的发展提供了建