论文部分内容阅读
数据挖掘是一门从大规模数据中提取有用信息和知识的新兴技术,分类是数据挖掘的一项重要内容 。面对大规模、高维的数据,如何建立有效的,可扩展的分类数据挖掘算法是数据挖掘研究的重要方向之一。在分类数据挖掘中,属性选择和规则抽取是两个最重要的工作。神经网络是数据挖掘的一个重要工具,而现有的神经网络属性选择方法必须对全部属性进行训练和裁剪,造成网络规模过大,训练量大,效率低下的缺陷,为了克服这些缺陷,必须提出新的方法。本文以神经网络为主要研究方法,并结合模糊逻辑技术,对分类数据挖掘中的属性选择和规则抽取两个问题提出了一些有效的算法,具体的研究工作如下:提出了一种基于输入输出关联法排序的RBF神经网络属性选择方法。由于属性选择是一个NP-HARD问题,现有的属性选择方法计算过于复杂,效率低下。本文提出一种新的属性选择方法。该方法先用输入输出关联法对所有属性进行重要性排序,然后根据属性重要性次序用RBF神经网络进行属性选择。该方法避免了现有的神经网络降维方法必须对全部属性进行训练和裁剪的弊端,大大提高了属性选择的效率。提出了一种可分性判据排序的RBF神经网络属性选择方法。该方法先用可分性判据计算每个属性的重要度,并对其进行排序,然后根据属性重要性次序用RBF神经网络进行属性选择。提出了一种基于降维的概率神经网络模糊规则抽取方法。该方法先用上面的属性选择方法从原始属性集中选择部分最重要的属性,然后对这部分属性进行模糊化处理,接着用概率神经网络进行模糊规则抽取。该方法通过属性选择减少了神经网络训练规模,避免了对神经网络进行节点裁剪,从而大大提高了规则抽取的效率。并且,用模糊规则来表现知识,规则易于理解,规则精度也有所提高。