基于关联规则算法的数据挖掘在高校成绩中的研究与应用

被引量 : 0次 | 上传用户:wdwd521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网技术的发展和广泛应用,人们在各项活动中产生了大量数据,通过对这些数据进行分析和处理,可以发现数据之间的关系,从而帮助人们在社会活动中指导或制定某种决策。关联规则是数据挖掘最先研究的问题之一,Apriori算法作为关联规则最经典的算法,被广泛研究和应用于各种场景,但是由于该算法需要频繁访问数据库,且支持度-置信度衡量标准所产生规则具有冗余性,算法的时间效率和信息的准确性较低。本文就是在Apriori算法的研究基础上,主要从降低算法时间和提高关联规则准确性方面对其进行改进。在时间效率方面,改进算法主要通过减少事务数据库的扫描次数和事务的扫描数目两个方面进行优化。为了减少数据库中扫描的事务数量,改进算法抛弃了Apriori算法每次统计某个频繁项集的支持数都去扫描事务数据库的做法,而是在内存中维护一张Map表用来记录频繁项集所在的事务ID号的集合,每次统计频繁项集的支持数即为求组成该项集的两个子项集的交集。为减少事务数据库的扫描次数,可以将事务数据库拆分为几个不相交的部分,依次扫描每个分区的事务得到局部频繁项集,组合所有的局部频繁项集为候选频繁项集,通过再次扫描数据库得到频繁项集。为提高所获得信息的准确性,在生成关联规则过程中,改进算法增加了相关度和有效度作为衡量标准,而不再仅仅依靠支持度-置信度的单一衡量标准。根据置信度的计算方式,得出推论:通过对一个关联规则进行某种形式的变形,得出的关联规则必定为强关联规则,而该项规则并不是用户所感兴趣的,需要进行舍弃。根据这个推论,对算法进行更进层次的改进。通过对传统的Apriori算法、AprioriTid算法和改进的算法进行对比,验证了改进算法在时间效率和信息准确性的优越性。最后将改进算法应用在学生成绩分析中,通过对学生成绩进行预处理,利用改进的算法挖掘学生成绩之间的关联规则,分析并解释关联规则的结果。利用产生的规则可以对学生进行预警,使学生明确以后的学习任务,同时帮助教学人员合理制定培养计划,提高教学质量,关联规则在高校成绩中的应用具有很好的现实意义。
其他文献
<正>银行一诺“千金”国外的经验表明,传统的银行贷款仍是中小企业(特别是小企业)的最重要的外源性融资渠道。除了定期贷款外,透支和授信贷款(或贷款承诺)也是传统的银行贷款的重
<正>冬春季节正是脑血管病的高发季节。年轻人脑出血50%以上是由于脑动静脉畸形所致,因此提示大家识别脑动静脉畸形的症状,以及脑出血治疗的注意事项。脑动静脉畸形是怎么回
我国众多的祭祀诗文及相关记载形成了独特的祭祀文化。《诗经》作为一部诗歌总集,内容十分广泛,其中祭祀性质的诗歌以其本身所具有的浓郁的宗教气息和鲜明的思想特征而自成一
<正>中国房地产金融市场的发展历程如果从1991年政府向房地产企业的IPO放行开始算起,已有近20年的历史了,无论从哪个角度看,中国还远未形成体系化的房地产金融市场,本文就中
哈林顿·埃默森(Harrington Emerson,1853—1931),“科学管理”理论的奠基人之一。其代表作《十二个效率原则》宣传了效率观念,成为管理思想史上的又一个里程碑。他的其他重
串联电容补偿技术是超高压及特高压远距离输电中的关键技术之一。随着串联补偿装置的广泛应用和电网的快速发展,有可能出现大串补度输电线路的情况,这将对输电线路继电保护甚
关于变电站无人值班建设中几个问题的调查分析与探讨电力部变电站无人值班调查组1前言为贯彻陆延昌副部长关于地区电网开展变电站遥控和无人值班工作的指示,部安生司、国家电力
建立了带硬时间窗车辆路径问题数学模型。针对传统遗传算法在局部搜索能力上存在不足这一问题,根据相关文献将爬山算法的思想融入遗传算法中,构造了求解该问题的改进遗传算法
当前,世界各国采取了独立的立法模式和附属性立法模式规范土壤污染防治制度。在土壤污染防治立法上,采取独立的立法模式更有利于系统规制土壤污染防治制度,实现有效预防和治
文中根据理化实验室排放废气性质,结合国家相关标准与规范,以净化机理为核心,系统设计了实验室废气处理系统,对理化实验室的建设具有一定的指导意义。