关联规则的相关算法研究--基于Apriori和FP-growth算法

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:haihanzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容,而如何快速发现频繁项集是关联规则数据挖掘算法的核心问题。   本文讨论了数据挖掘和关联规则的一般理论,包括数据挖掘的概念、任务、模式以及数据挖掘的应用和发展趋势。深入研究了关联规则挖掘算法,分析了关联规则挖掘中经典的Apriori和FP-growth算法,并总结了Apriori和FP-growth算法中存在的问题。针对Apriori算法的效率问题,从两个角度进行改进:(1)降低候选项目集中候选项产生的数量;(2)减少扫描数据库的次数。给出了一种较为高效的关联规则挖掘算法。算法的主要思想是在扫描数据库的同时把支持每个项目的事务都标记出来,采用一种新的方法生成所有的频繁集。该算法只需对源数据库进行一次扫描就可以找出所有的频繁集,并通过裁剪候选集的方法达到减少候选项数目集的目的。这样做不但降低了算法的I/O负荷,而且减少了时间开销,具有很高的效率。最后,将基于关联规则的数据挖掘改进算法方法应用到学生考试成绩管理中,对挖掘结果进行了分析,并提出了指导意见。   本文的工作虽然取得了一定的成果,但尚有大量问题有待于进一步研究,比如,关联规则挖掘应用系统的设计:关联规则有趣度的研究以及如何将挖掘结果友好地呈现给用户。
其他文献
食品安全不仅是关乎民生的大事,也是食品行业相关企业赖以生存和发展的生命线。目前,运用冷藏运输的方式将易腐食品和生鲜食品在流通环节中控制在适度低温环境下,成为了食品
近年来,随着虚拟现实、CAD、多媒体娱乐等相关应用产业的发展,越来越多的三维模型被创建和使用,而互联网技术的飞速发展和广泛普及也极大地促进了多媒体信息的共享和交流。关于
在计算机图形学领域,体绘制是一门独立的渲染技术。因具备对三维数据场的完全描述能力,体绘制技术在医学成像、地质勘探、数字雕刻等众多领域中得到了广泛的应用。体数据通常是
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量的可复用软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,在In
计算机网络的快速发展,给人们生活带来便利的同时,人们对其依赖程度也与日俱增。同时,频繁发生的网络攻击事件不但严重影响了人们的正常生活,也给社会造成巨大经济损失。入侵检测
近年来,世界能源短缺严重制约着各国经济建设、社会发展和环境保护。在我国这样一个人口大国中,电力资源的短缺问题更是越发严重。全国各地都在积极响应国务院颁布的《核电中
操作系统一直是计算机领域内一个重要的课题,如何构建一个安全并且高效的操作系统,是操作系统研究的目标。   一直以来,操作系统的内核设计有两个方向,微内核结构和宏内核结构
在出版界,人们一直在尝试着将传统纸质的书目资源电子化,借助互联网平台,推广书目,增加书目的受众。并且借助于搜索引擎技术,提高书目的使用效率。   商务印书馆是具有百年历史
随着基于不确定数据进行数据挖掘和知识发现的研究的深入,这种更加符合客观实际的理论方法越来越成为近年来研究的热点。空间数据固有信息的海量性和复杂性使得传统的数据查
随着社会分工越来越细,企业与企业之间通过协同完成业务目标已成为不可逆转的趋势。从最终用户的角度来说,他们所使用的产品、享受的服务往往是由多个企业,通过整合自身资源相互