论文部分内容阅读
数据挖掘是指从大量的数据中发现人们事先不知道的、有用的知识(或模式)的处理过程,它是继数据库、人工智能等领域之后发展起来的一门重要学科。由于挖掘到的知识能够给各领域以有力的支持,因此,数据挖掘技术得到了广泛的应用。在数据挖掘算法的研究中,比较有影响的是关联规则发现算法,它是数据挖掘研究的一个重要分支,也是数据挖掘的众多知识类型中最为典型的一种。论文首先介绍数据挖掘的功能和数据挖掘中所涉及到的常用算法,重点研究了关联规则中的FP-growth算法,并用实验方法对FP-growth算法和Apriori算法做了比较。并对FP-growth算法进行了分析,提出了基于以下三点的算法改进:1.将双向的FP-树改成单向,以简化数据结构,2.采用改变结点数据结构的方法,避免了条件FP-树生成,提高了计算速度3.在算法流程方面,使用循环替代递归,提高执行速度,降低了内存开销。通过对时间和空间性能的分析和实验的证明,改进的FP-growth算法性能得到提高。文章在实现某高校科技管理系统的系统设计和数据库设计的基础上,将数据挖掘中的关联规则挖掘算法应用科技管理信息系统。经过对关联规则算法的研究和改进,采用了关联规则中的改进的FP-growth算法对经过数据预处理的数据仓库中六张表进行了挖掘,并分析了挖掘结果,提出了高校应当加强国家级项目的申请,加强30-40岁的青年学者的科研能力等建议。论文最后,讨论了目前研究工作中需要进一步完善的问题,指出了今后的研究方向。