Study on New Approach for Effective Mining Association Rules from Huge Databases

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:xys0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一项在大规模数据中寻找有用规则的逻辑过程。过去三十年间,计算机硬件和系统软件的指数倍增长使得功能强大的计算机、数据采集仪器和存储媒体被大规模采购。这项技术刺激了数据库和信息产业的发展,带动了工业界交易管理信息检索和数据分析,从这些数据中抽取关联规则成为数据挖掘中一项重要和有挑战的任务。   关联规则挖掘是数据挖掘中的一种描述性的技术,它可以定义为从大规模数据中发现有意义模式的过程(在交易数据中共同出现的项目集)。挖掘频繁模式是关联规则挖掘的一个基础部分。数据挖掘指的是从大规模数据中抽取或挖掘知识。然而,关联规则挖掘之前的研究大多采用一种类似Apriogi算法从交易数据中产生关联规则。这种类Apriori算法有两个缺点:需要产生数量庞大的候选集合,需要反复扫描数据库并且从候选集合中检查模式匹配。   此论文的目的是探索关联规则挖掘算法并且提出一种新的关联规则挖掘算法,得到比类Apri耐算法更好的性能。本文提出的算法结合了模式增长方式和apriori规则生成方式。本文的另一个目的是将提出的模型应用到真实购物篮分析中,以评估其有效性。从算法分析得到的知识可以提高商品促销活动的效果。   通过在搜集的和已有的数据集上进行的实验,本文提出的算法在稠密数据集和稀疏数据集上都优于类Apriori算法的性能。本文主要分为五个部分:第一章介绍了数据挖掘的背景基础知识。第二章正式提出了频繁项目集挖掘问题并且介绍了关联规则挖掘领域最近的研究状况。第三章比较了频繁模式增长策略,并且提出了本文的算法。第四章利用提出的算法在一个超市数据集上进行了实验。第五章进行了算法的评估并最后总结并指出了未来工作。
其他文献
推荐系统作为一种信息过滤工具诞生至今已有20余年,推荐算法的应用场景亦早已不限于电商领域,转而在诸多关联人和信息的领域发挥作用。早期的推荐算法多采用单一的用户物品交
随着互联网的蓬勃发展,建立在互联网之上的各种应用也层出不穷,其中最为成功的莫过于万维网(WWW)。万维网被称为“网中之网”,是互联网上最受欢迎的服务之一。它运用超文本技术
肝脏是人体重要的消化器官,肝脏疾病直接影响到人的健康和生存。随着计算机技术及生物医学工程技术的发展,医学影像学为临床诊断提供了丰富直观的医学图像,这些图像在医学诊
流场可视化是科学计算可视化研究中的一个经典的研究方向,对海洋的科学研究与分析有十分重要的意义和价值。平面矢量场可视化是科学计算可视化的重要组成部分之一。目前国内
农作物病害严重影响农业生产,是我国农业的主要灾害之一。目前,对于农作物病害预测通常采用的方法是线性方法;但是农业生产体系是一个非常复杂的非线性系统,采用一般的线性方法对
自从1998年,互联网进入中国,之后电子商务行业兴起,淘宝网,天猫,京东商城,等许多网上购物网站如雨后春笋般出现。这也促进了众多物流公司的兴起,物流公司规模的扩大,以及汽车,飞机等物
网格计算是伴随着互联网技术的迅速发展而产生的一种新型分布式计算模式,通过互联网将分散的计算资源虚拟成一个超级计算机,实现跨地域的、并行分布式联合计算,以完成重大科学领
Web服务以其良好的互操作性、松耦合性、可扩展性等诸多优点逐渐受到学术界和工业界的共同关注。虽然Web服务本身的技术越来越成熟,但是单个服务能实现的功能毕竟有限,无法满足
学位
VANETs已经成为一种非常具有应用前景的新型无线数据分发网络,由于VANETs不仅能提高交通安全,还能将视频、音频、数据文件等娱乐信息传输给车辆,已经成为了研究热点。在车辆网络