论文部分内容阅读
数据挖掘是目前数据库和信息决策领域最前沿的研究方向之一。本文研究数据库中数据挖掘,主要包括以下内容: 1 介绍了数据库和数据挖掘技术的发展动态,讨论了数据挖掘技术的研究现状、存在的不足和发展方向。分析了海量数据库产生的原因和特点。讨论了适于在海量数据库中进行数据挖掘的算法的基本特征,即算法应该具有线性计算复杂度O(n)。 2 对挖掘关联规则的算法进行了研究。首先,我们分析了Apriori算法的某些不足;随后,我们提出了一种基于Apriori的改进算法,新算法在某些场合能减少扫描数据库的次数,提高了算法的效率;随后,我们又提出了一种基于事务树的高效算法,用该算法挖掘频繁项目集只需要一次扫描事务数据库,不需要产生候选项目集,该算法的速度大约是Apriori算法的10倍;最后,我们提出了一种用Visual FoxPro实现Apriori算法的方法。 3 对关联规则的衡量标准进行了研究,指出了原衡量标准和若干改进方法的不足。目前,关联规则常用的衡量标准是支持度和置信度,如果按现有标准来生成关联规则,可能会发现大量冗余的、虚假的关联规则。为了减少关联规则挖掘中的无效关联规则,我们分析了产生问题的根源,提出了三种改进方法,即在关联规则的衡量标准中增加影响度、相对置信度或有效度标准,并分别定义了影响度、相对置信度和有效度。根据影响度、相对置信度或有效度的大小,将强关联规则分为正关联规则、无效关联规则和负关联规则。一般来说,只有正关联规则才是有效的关联规则,有时,它们只占强关联规则总数的一小部分。此外,我们提供了用新衡量标准进行关联规则挖掘的改进算法,并进行了实验。实验表明,我们提出的方法能明显减少无效的关联规则。 4 对目前比较优秀的各种分类算法进行了介绍、分析和比较。综合提出了分类算法的评价标准。随后,我们讨论了SPRINT算法。针对SPRINT算法的不足,提出了二种处理离散属性的新方法。这些方法能明显减少求最优分割点的运算量,提高算法的执行速度。最后,我们提出了一种基于抽样的快速数据分类算法。该算法既是可伸缩的,也可并行化。实验表明,该算法的速度是SPRINT算法的10-50倍。 5 介绍、分析和比较了各种常用的聚类方法,综合提出了聚类算法的评价标准和今后的研究方向。随后,在分析BIRCH算法不足的基础上,提出了一种基于抽样的聚类算法。测试结果表明,该算法在聚类速度方面明显优于BIRCH算数据库中数据挖掘理论方法及应用研究法。 6为了提高数据挖掘的效率,提出了采用约束和多维技术的方法进行数据挖掘。分析了数据挖掘中可能的约束类型,用关联规则挖掘讨论了哪些约束可运用于数据挖掘过程中。设计出了一个采用约束与多维技术的数据挖掘系统结构。 7讨论了数据挖掘技术在电力系统中应用,重点研究了最优潮流问题的高效算法。我们根据电力系统的特点,把无功界约束与一般非线性不等式约束分开来考虑,提出了一类投影渐近半光滑Newton型算法,实验表明,我们提出的算法具有良好的计算性能。关键词:数据库;数据挖掘;关联规则;分类;聚类;算法八