基于关联规则的数据挖掘算法研究

被引量 : 0次 | 上传用户:ysc4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘或知识发现是用于数据分析和理解、揭示数据内部知识的技术,在最近几年里已被广泛的研究,其中关联规则是数据挖掘的一个重要的问题。关联规则的挖掘必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。目前,关联规则的基本概念和研究方法趋于清晰,它的研究正向着更深入的方向发展,大部分学者认为它的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、以及挖掘算法等方面进行创新。同时,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,研究者需要探索新的关联规则挖掘理论和模型,需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究现状和发展趋势选择了这一课题开展相关工作。在关联规则理论方面,对关联规则的基本概念,关联规则的典型算法,及其算法研究新进展进行了全面地分类、归纳和总结,同时也针对各类算法的实用条件,算法间的差别进行了客观地比较。在关联规则挖掘算法方面,针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况,在关联规则挖掘前提出以二进制序列集来组织数据,提高整个关联规则挖掘中项目集的存储效率;在关联规则挖掘方面提出两种数据结构构造算法,二进制序列密集树算法和频繁模式树的正负关联规则挖掘算法,前者首先是对数据进行压缩,把较大的事务数据集聚为一个相对较小的数据结构,用以计算二项集的支持度和致信度;然后在二进制频繁项集树上,利用二项集的支持度和致信度信息从树的顶层直至底层构造频繁项集,进而挖掘出所有的关联规则;同时为避免单一挖掘正关联规则的局限性,提出基于频繁模式树的正负关联规则挖掘算法,该算法将事务数据库中出现的正项目和隐含的负项目进行处理,打破了先挖掘正关联规则,其次再挖掘负关联规则这种单一的挖掘模式。这两种数据结构算法只需一次扫描整个数据库而且不产生侯选集就可以从数据库中挖掘所有的正,负关联规则,大大的提高了运算的效率。试验结果表明,该算法在挖掘效率、可用性,算法扩展性方面有较好的性能。该算法对数据挖掘的作用来说,具有一定的实用价值,一方面,它可以给研究数据挖掘关联规则的科研人员提供思路,供科研人员参考;另一方面,如果将其整合到其它现有的数据挖掘工具中,可以大大提高算法的实用价值。
其他文献
人脸识别是生物特征识别中一个活跃的研究领域,目前已经在身份鉴别和权限控制等方面得到了广泛的应用,是计算机科学与技术和模式识别领域中非常活跃的研究课题。支持向量机方
提出了企业网络与组织间学习的关系链模型,该模型包括两个方面:企业网络形成的组织间学习观和企业网络的组织间学习功能。前者包括企业竞争优势的知识驱动、企业缄默知识的高
<正>实现科学发展和社会和谐,需要有力的精神支撑和良好的文化条件。公共财政是政府履行职能的重要物质基础、政策工具、体制保障和管理手段,具有优化
在深化教育改革的过程中,人们已认识到幼儿教育对孩子成长的重要性,幼儿是祖国的未来和希望,培养孩子健康和健全的个性,不仅是幼儿身心健康成长的需要,也是当今社会的需要。
在研究该矿区地质特征基础上,针对性的采集能代表成矿流体的构造地球化学样品,对样品进行流体的氢氧同位素分析,将各个样品中的分析数据投点于不同类型的氢氧同位素组成图上,
我国的粮食主产区粮食年产量占全国粮食总产量的70%以上,粮食主产区承担着保障国家粮食安全的重任。虽然国家高度重视粮食主产区的粮食生产,但粮食主产区经济普遍落后、农民
<正>新的课程理念强调教育要"关注每一位学生的个性发展,关注全体学生的全面发展"。但是,对于广大农村教育来说,英语新课改的课程设计理念多少有点像空中楼阁,几乎无法实现《
对新型组合分级设备进行技术考查、分级效果对比 ,并进行了工业试验 ,证明新型组合设备分级效率等选别指标均有大幅度提高
运用热重分析手段对几种阻化剂进行了实验研究,运用化学反应动力学方程计算得到了原煤样与阻化煤样的活化能。实验和计算结果表明,同种阻化剂对不同的煤样具有选择性,不同的
近年来会展行业的发展越来越受到相关部门的关注和重视。对会展业发展的研究也逐渐兴起。会展业作为经济发展的一个窗口能反映行业的发展态势,向市场介绍推广前沿的产品及技