数据挖掘中的关联规则算法研究

被引量 : 0次 | 上传用户:rambo0316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。 关联规则概念最早是由在IBM工作的Rakesh Agrawal博士于1993年提出的,用于刻划事务数据库中交易项目之间的关系,即频繁关系。其研究已有10余年时间并取得了很多成果,但还有很多问题亟待解决。本文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了研究,取得了一定的研究成果。 本文对关联规则挖掘的经典算法:Apriori、AprioriTid、AprioriHybrid算法、Apriori RFM算法、划分的算法和取样算法进行了研究,针对上述算法的不足提出了一种快速挖掘关联规则的算法AprioriTidHybrid。算法以经典的Apriori和AprioriTid为基础,针对其特点对算法提出了改进,在最初的阶段用Apriori算法,在后来的扫描中用AprioriTid;考虑了(?)可能比源数据库大的情况,在L2的基础上产生,而不是在传统的C2的基础上产生(?),大大地压缩了(?)的规模;采用一种更为高效的DAgen算法代替Apriorigen来产生候选项集。实验结果表明,较Apriori和AprioriTid算法的性能有明显的提高。 本文提出的基于Apriori、AprioriTid的取样关联规则算法研究创新之处在于,提出了一种高效的关联规则挖掘算法FASTA:采用经典的FAST的算法思想选取样本,使得选取的样本更具有典型性和精确性;对所选取的样本用本文提出的AprioriTidHybrid进行关联规则的挖掘。在实验中同其它的算法进行了比较,改进的算法提高了挖掘性能。
其他文献
实施“走出去”战略,开展跨国经营,是我国对外开放新阶段的重大举措。这就要求我们推动有比较优势的企业对外直接投资,培育一批有实力的跨国企业和国际知名品牌,全面提高我国
本文结合广东已有的改革经验,从三大领域展开分析,探讨如何进一步深化改革。一是经济方面围绕着"腾笼换鸟"的产业升级问题,这关乎广东能否实现可持续的经济增长,逃避"中等收
可持续发展的概念在上个世纪就已提出,但是,至今仍是一个热门的话题。《中国21世纪议程》的提出,表明了中国在实施可持续发展方面的坚定立场。经济-资源-环境的协调发展是可
本文选择适用于工业生产的带有搅拌系统和均流装置的淬火槽,对淬火介质在槽内的流场分布进行模拟。在专业CFD前处理器GAMBIT中建立三维淬火槽模型并进行有限网格的划分。判断
工作满意度影响员工的各个方面,包括离职率、绩效、顾客满意度、生活满意度与心理健康等。如今工作满意度已经成为心理学与管理学中热门的研究课题之一,在理论与实践上,都受
本文研究了超临界二氧化碳萃取技术萃取甘草中的异甘草素,大孔吸附树脂技术和柱层析技术分离纯化异甘草素的工艺,以及超临界后固形物提取纯化甘草酸的工艺进行了深入而系统的
目的探讨丁苯酞氯化钠注射液治疗小脑梗死后患者眩晕症状的临床效果。方法回顾性分析118例小脑梗死后眩晕患者的临床资料,其中常规治疗(对照组)46例,在常规治疗基础上加用丁苯
随着互联网信息技术的发展,网络购物逐渐盛行,也带动了电子商务物流的发展,辽宁省电子商务物流服务业的发展还处于初级阶段,存在很多不完善的地方。本文通过对辽宁省电子商务
本文主要是研究灰色系统理论在预测模型中的应用。在预测领域,灰色系统理论使用的是GM(1,1)模型。 在此基础上,本文接着研究了在几种特殊情况下,如何对GM(1,1)模型进行改
<正>患者,男,77岁。既往有高血压病史,服用通心络胶囊0.2g每日2次,贝拉普利4mg每日1次治疗,血压维持在正常水平。既往无冠心病病史。曾因白内障行手术治疗。病情稳定行康复疗