计算机数据的关联规则挖掘理论和算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:rual7007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用范围、领域等的日益扩大,特别是Internet的飞速发展,在各种应用系统和Internet上积聚了大量、甚至海量数据,产生了"数据爆炸、知识贫乏"的现象;数据挖掘是解决这种问题的最为有效的手段,它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段。其中关联规则挖掘是一种主要的,也是用途最广的数据挖掘方法。关联规则概念最早是由在IBM工作的Rakesh Agrawal博士等于1993年提出的,用于刻划事务数据库中各交易项目之间的关系,即频繁关系,其研究已有10余年时间,取得了很多成果,但还有很多问题亟待解决。本论文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了深入研究,取得了一定的研究成果。作者把关联规则挖掘分为五个阶段,提出了MMAR模型,该模型是对Agrawal两阶段模型的改进与完善,更符合现有的实际,且对未来关联规则挖掘研究也更具指导意义。在该模型中,作者第一次明确提出了把现有的关联规则看成是关联关系及其关联关系表达的统一体,这种分离有助于对关联规则知识的理解,也明确指明关联关系及其表达同关联规则挖掘算法等一样是关联规则挖掘中的一个重要不可缺的方面。在关联关系研究中,作者提出了扩展型关联关系以及扩展型关联规则。扩展型关联规则涵盖了Rakesh Agrawal提出的基本型关联规则,从语义上看,后者只是前者的一种特殊形式,扩展型关联规则既具有理论意义又有实际应用价值。扩展型关联规则既包含肯定频繁关系又包含否定频繁关系,而基本型关联规则仅包含肯定频繁关系;此外,作者还推导了扩展型关联规则支持度计算的若干定理,并利用这些定理建立了一个有效的扩展型关联规则挖掘算法。通常,挖掘产生的关联规则都存在数量过大的问题,现有的办法是通过兴趣度、带约束的关联规则挖掘来解决该问题,但效果甚差,为此作者提出了原关联规则。原关联规则具有很强的规则约简能力和生成能力,利用其规则约简能力,在挖掘时可以极大减少关联规则的数量;利用其规则生成能力,在产生原关联规则后,可以得到其它的关联规则,从而不会产生信息知识的丢失;原关联规则可以几倍甚至几十倍地减少关联规则数量。此外,作者针对原关联规则生成,提出了一个有效的两步生成算法,即先从频繁项生成源关联规则(Source Association<WP=5>Rules),再从源关联规则生成原关联规则(Atom Association Rules)。关联规则频繁项的挖掘是关联规则挖掘的中重要研究内容,目前绝大多数的研究都集中在如何提高频繁项挖掘的效率上。现有研究主要从提高串行算法的效率、利用并行和分布式挖掘算法、增量挖掘算法等来提高关联规则挖掘效率,为进一步提高效率,还提出了挖掘部分或特殊关联规则,如提出挖掘极大频繁项、挖掘闭集频繁项的挖掘算法。作者对此进行了深入研究,发现关联规则串行算法是提高关联规则挖掘效率的基础,并行算法和增量算法都是基于某种串行算法的。在对树-投影挖掘串行算法进行的研究中,作者发现了该算法存在冗余投影这一现象,并提出了水平优化策略、垂直优化策略解决方案,论证了这两种优化策略的关系,从理论上详细论证了其优点。实验表明,采用水平优化策略的算法与不采用优化策略的算法相比,算法性能有了很大提高,执行时间能成倍降低,存储空间也极大减少;而且这种两种优化策略是和数据结构无关的,因此它们既可用于现有各种基于树-投影的关联规则挖掘算法的优化,又可用于指导未来的树-投影关联规则挖掘算法的设计;此外,针对关系数据库中多维关联规则的挖掘,作者还提出了一个结合投影树、广度优先搜索、兄弟交集投影、Apriori优化、水平优化、属性项目优化、数据垂直组织等多种优化方法的关联规则挖掘算法,克服了现有挖掘方法的某些不足。本文最后对研究工作进行了总结,提出了今后进一步的研究方向
其他文献
本文研究了基于天然友好的柠檬酸(CA)的耐久压烫整理技术,通过加入多元醇扩链剂,用这种技术整理的棉织物折皱回复角以及白度方面与有甲醛释放间题的DMDHEU(2D)树脂整理剂相当
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
论文探讨复杂系统的计算机模拟与可视化。研究工作侧重于复杂流动与复杂地形两个领域。流体与人类社会密切相关。论文对流体的研究包括流体流动的计算模拟和计算结果的可视化
随着经济迅速发展,公路交通已不能满足公共交通的需求.大型的轨道交通应运而生,必然导致公路交通和轨道交通在空间上形成立体交叉的局面,会对相互的结构造成一定影响.因此,必
上海是我国老龄化程度最高的大型城市,养老服务需求大、负担重。为贯彻落实中央推进养老服务发展意见,进一步反映上海市养老服务发展现状及存在的问题,上海市统计局通过实地
目的对新型抗类风湿药物DK-507进行处方前研究,为制剂研究提供理论依据。方法对DK-507外观、晶型和溶解性等进行考察,建立了用于含量测定的高效液相色谱(HPLC)方法,并测定了DK-
在工业技术发展的推动下,工业生产已经基本实现了机械化,并且正在向着自动化、智能化的方向断发展。而在此过程中,不可避免的需要用到大量的现代先进科技技术,控制器局域网络
LED光柱电子显示是集指针式显示和数字式显示优点于一身的近年兴起的显示技术。本文介绍了美国生产的专门用于驱动LED光柱显示的集成电路LM3914的功能、内部功能、具体用法、应用实例和注
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊