论文部分内容阅读
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动地帮助人们分析已经消耗大量财力和物力所收集与整理的海量数据,以发现有用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,并得以蓬勃发展。数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容。而频繁项目集的发现是关联规则挖掘的核心问题。本文重点研究了频繁项目集的发现算法及关联规则挖掘的应用,主要工作包括以下几个方面:1、研究了数据挖掘中的关联规则挖掘的步骤。对经典的Apriori算法和AprioriTid算法做了全面的分析,指出了关联规则挖掘中的关键步骤和频繁项目集算法的不足。2、针对Apriori算法的不足,提出了一种高效的频繁项目集的发现算法ZSApriori。该算法在计算支持度计数时,只扫描一遍事务数据库,减少了事务数据库的扫描次数;在求k-候选项目集Ck前,先判断k-1频繁集Lk-1中的项目个数是否小于k,若小于k,则Ck=Φ,此时不再需要进行连接操作来计算Ck,尤其当k值很大时,可以节省大量的计算时间;根据频繁项目集的性质,在计算候选项目集时,减少了候选项目集的数量。3、将关联规则挖掘应用到高校教学质量评价中。从教学评价数据中挖掘关联规则,找出课题教学效果与教师状态的关系,从而为教学部门提供决策支持信息,促使更好地开展教学工作,提高教学质量。4、将关联规则挖掘应用到高校就业分析中,发现学生的受教育属性和就业属性之间的关联性,找出社会需要的应用型人才的模型,从而给决策者提供指导和数据支持,改进现有的教育模式。