论文部分内容阅读
数据挖掘是一个多学科领域,从多个学科中汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统等。它自从问世以来,引起了国际国内计算机领域、人工智能等领域的研究热潮,在各行各业的应用研究也正在兴起。 现有的数据挖掘方法都是挖掘事务数据库DB中的项ID之间的关联关系,所挖掘出来的信息反映的只是项ID之间的联系,但不能反映它们之间的量化关系,在电力系统的应用中这种量化关系是普遍存在的,它对于决策系统起着非常重要的作用。本文为此提出了一种关于多频项集量化挖掘的概念及算法,利用故障项ID的明细数据,能挖掘出各项ID之间的量化比例关系,来反映项集内部元素的频数对其它项集的影响和关系,如事务性数据库中每条事务同时包含项集的类别及其数量,重点考察那些“量化比例相差悬殊的关联项集”是否真正关联?或许它们之间根本就没有关联,而是一种巧合,这样可以解释电力系统中的一些偶然现象。 当数据库记录动态增加时,现有的数据挖掘方法面临重复多次扫描数据库,这样就会浪费计算机的系统资源。本文为此提出了一种针对大型数据库、关于多频项集、动态增量式的挖掘新算法,利用前次的挖掘结果和新增故障项ID的明细数据,只需对增加部分进行挖掘,挖掘完毕后,另外对原始数据库部分补加一次扫描,克服了其它算法对原始数据库重复扫描多遍、搜索空间过大、搜索时间长、算法效率低等缺点,是对计算机系统资源的充分优化。 针对有候选项集的关联规则的挖掘,本文提出了一种双字段互连式数据挖掘新算法,该算法只需在求1—项候选项集和2—项候选项集时,扫描原始数据库DB各1次,在求更高层次的频繁项集时,就不需要扫描原始数据库,而只需扫描上一层次的候选频繁闭项集,这样大大缩小了搜索范围,提高了算法执行效率,节约了系统资源。 针对无候选项集的关联规则的挖掘,本文将FP—T挖掘算法引入基于“树”的多层关联规则的挖掘,并将FP—T挖掘算法进行改进,通过构造一种具有特殊节点链指针的索引表,利用多概念层之间的父子关系,来实现多层频繁项集的并发数据挖掘,可挖掘出不同概念层之间的关联规则,从而可大大减少重复扫描数据库的次数,挖掘出更多的关联信息。 电力系统中的属性参数值特别多,如果都参与运算和挖掘,会影响系统程