论文部分内容阅读
随着大数据的兴起,人们对数据挖掘的方法要求也越来越高。现在的数据库只为了记录信息以及管理资源,并不是从数据挖掘的角度收集的,以致数据具有不确定性、不完全性、冗余等,传统的数据挖掘方法已不能满足要求。粗糙集是一种能够处理不一致、不确定的、含糊的强有力的数学和数据分析工具,无需任何先验知识。属性约简是粗糙集理论研究的核心之一,可以保持分类能力不变以缩减数据库的数据量,从而降低数据挖掘的空间和时间复杂度。本文研究经典的属性约简算法,并针对其中的不足提出了一种改进的基于新属性重要度的约简算法。在此基础上,对粗糙集与BP神经网络的结合进行研究,即将粗糙集的属性约简作为BP神经网络的前端处理器,理论上简化了神经网络结构,缩短训练时间。最后,通过个人信用评估的实证分析验证算法的有效性。本文主要研究内容如下:首先,对粗糙集、数据挖掘以及粗糙集与数据挖掘结合的研究现状进行分析;研究了粗糙集的基本理论,如粗糙集理论中的上下近似集、正域、知识约简等概念,并研究了数据挖掘的基本技术,如数据挖掘的过程、方法与任务等。其次,对经典的粗糙集属性约简算法进行研究并分析其各自优缺点,在此基础上提出了改进算法。针对基于区分函数求核算法的逻辑公式计算复杂提出改进区分矩阵的求核算法;针对属性重要度(依赖度、信息熵)的不完备性,定义了新的属性重要度,综合考虑正区域与边界域对约简过程的影响;针对属性重要度无法区分问题以变精度粗糙集策略对属性重要度相等的属性进行再次区分,本文提出了一种基于新的属性重要度的属性约简算法,并选用UCI数据库中的五组离散数据集进行仿真测试,验证了算法的有效性与可行性。最后,对BP神经网络结构及算法过程进行研究,针对神经网络与粗糙集各自的优缺点,将粗糙集与BP神经网络结合,并利用基于新的属性重要度的约简算法作为网络的前端处理器并通过个人信用评估模型对该算法进行了实证分析,相比于未约简的个人信用的分类正确率有略微的下降,但经过约简,输入向量维数大大减少,简化了BP神经网络结构,减少了训练时间,对模型推广到大型的决策表及数据集具有实际可行的意义。