论文部分内容阅读
数据挖掘技术已经引起了信息产业界的广泛关注。进行高校资产数据挖掘与分析研究,有利于充分发现高校资产数据的潜在价值,能更好地为高校管理、高校决策提供科学依据。关联规则挖掘是数据挖掘的一个重要研究领域,是其中一个主要的研究方向,有着广泛的应用价值。它是指从大量事务记录中发现各个项集之间的相关联系,这些联系表示数据库或数据仓库中一组对象间某种关联的规则。过去人们已经提出了许多挖掘关联规则的算法及其变型,其中最著名的是Apriori算法。在关联规则挖掘中,频繁的I/O操作必定会影响关联规则的挖掘效率。减少I/O操作的方法主要是:减少扫描数据集的次数;降低需要计算支持度的候选项目集的数量,并使候选项目集的数量与频繁项目集的数量接近。在现有的关联规则挖掘算法中,广泛采用了“支持度—置信度”的评价标准。然而过去的一些应用发现,数据挖掘产生的大量规则,其中的大部分对用户来说可能是不感兴趣的或者没用的,甚至还可能引起误导。为了解决这个问题,本文提出了增加兴趣度阈值。当挖掘出一条关联规则时,只有其支持度、置信度和兴趣度同时都大于最小支持度、最小置信度和最小兴趣度阈值,才被认为是最有意义的模式。本文分析了高校资产数据资源的现状与特点,构建了高校资产数据仓库雪花模型,并采用部门约束对数据仓库的记录进行处理。在研究已有关联规则挖掘算法的基础上,针对经典Apriori算法对数据库的扫描次数过多、系统的I/O负载大和产生大量的无关中间项集等弊端,设计出了一个采用结构化查询语句(SQL)进行操作,并引入兴趣度作为评价标准的有效关联规则挖掘算法,利用该算法挖掘出了用户感兴趣的规则。该算法通过加入用户兴趣项,减少了候选项集的产生;打破传统算法的实现步骤,减少了数据库的扫描次数,降低了系统I/O负载;构建的用户兴趣度模型,增加了算法生成强关联规则的可读性,提高了算法的效率。实验表明,采用部门约束和改进的Apriori算法能有效地提高挖掘速度和效率,能更好地挖掘出高校资产管理指标之间的关联规则。最后对该数据挖掘模型进行了评价,提出的新增资产决策建议,在实际应用中取得了良好效果,提高了高校资产管理的科学性和实用性。