基于压缩矩阵的关联规则挖掘算法的改进研究

被引量 : 0次 | 上传用户:zeratel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据信息呈现爆炸式的增长。为了从海量数据中获取有用的信息,数据挖掘成为当今数据库研究方面最具活力的领域。关联规则挖掘是数据挖掘领域一个重要的研究方向,这项技术广泛应用于各大领域,有着极其重要的应用价值。随着数据集的大小和复杂性的增长,如何提高关联规则挖掘算法对大规模数据集的挖掘效率成为关联规则挖掘研究的核心问题。经典的关联规则挖掘算法Apriori算法是当前关联规则挖掘算法研究的热点。基于矩阵的Apriori算法相比Apriori算法减少了扫描数据库的次数,提高了计算支持度计数的效率,但仍然存在候选集过多,矩阵占用内存空间过大等问题。本文针对已有的基于矩阵的Apriori算法的不足,提出了一种改进的基于压缩矩阵的Apriori算法——NCMA。主要工作内容包括以下几个方面:(1)首先了解关联规则挖掘算法的背景和发展现状,重点探讨了Apriori算法及其改进算法的优缺点,分析了现有基于Apriori的改进算法存在的问题。(2)详细分析了基于矩阵的Apriori算法及其改进算法,发现改进的基于矩阵的Apriori算法仍然存在多次扫描矩阵、为减少候选集数量增加过多额外计算时间、矩阵压缩得不够彻底、挖掘结果的精确度不高、算法设计过于复杂等问题。(3)针对不足之处,提出一种改进的基于压缩矩阵的Apriori算法——NCMA。算法从矩阵存储、项集排序、矩阵压缩、支持度计数的计算、算法结束条件五个方面进行改进,并通过实例分析证明算法的正确性。(4)将NCMA算法和Apriori算法、CMApriori1算法从理论上和实验上进行分析比较,理论和实验结果都证明了NCMA算法能有效地减少扫描矩阵的次数,大大压缩了矩阵规模,减少了候选项集的数目,提高了挖掘频繁项集的效率。该算法在挖掘密集型数据库时比现有的基于矩阵的Apriori算法具有更高的运行效率和可伸缩性。
其他文献
为了解辽东硼矿的成矿机制及建立成矿模式,分析了含硼岩系、镁质容矿岩石、区域变质作用及混合岩化作用、构造等四大控矿因素,发现含硼岩系具富硼特征,容矿岩石具富镁特点并
伴随着“中世纪晚期的危机”,非正常死亡成了当时西欧社会频频发生的事。14世纪初期,西欧几百年以来的盛世与繁荣出现了断裂,饥荒和瘟疫肆意地“屠宰”着人们。死亡这个永恒的话
随着我国畜牧业的发展,肉鸡的养殖业也取得了长足的进步,从之前的以散养为主逐步发展成现代集约化、规模化养殖模式。在本次调查研究共计6个月,统计了该肉鸡养殖公司4个养殖基地
在当前青年研究领域,青年创业研究已成为一个重要的研究课题。青年作为创业的主体,他们创业的目的是什么,创业的手段和方式有哪些,对创业如何评价,是值得研究的问题。因此,本研究选
我国《基础教育课程改革纲要(试行)》明确规定,在新一轮课程改革中要开发和利用校内外各种课程资源。高中的思想政治课由于其独特性质,使它拥有较丰富的课程资源。教师是课程资源
无论是在国家政策制定层面还是学术界的研究层面,共性意见都是要建立覆盖全体农村居民的社会养老保险制度,这一制度是农村社会保障制度体系建设的基础。在农村社会保障项目不
伴随着中国综合国力的增长和国际地位的普遍提高,中国与世界的交往变得日益频繁。作为交流沟通的重要媒介,汉语及其背后所蕴含的文化底蕴正逐渐得到世界的重视。目前,已有约一百
全球化背景下,随着现代性在世界范围内的全面展开,各种文化碰撞交流,不同价值观念摩擦冲突,作为构建社会整体性基础的文化认同面临被瓦解的风险,出现了世界范围的文化认同危机。面
目的通过调查河南省三级医院和护理院校对护理硕士毕业生的需求情况,了解河南省不同类型用人单位对护理硕士毕业生的需求状况及差别。探讨如何改进护理硕士研究生的培养模式,培
能源是发展生产力和提高人类生活水平的基础,能源的短缺促使人们意识到节能的重要性,但是要回答何谓节能其实并不简单,只考虑能量平衡的热力学第一定律回答不了这一问题,从能量利