论文部分内容阅读
当今科学技术的飞速发展,使得数据库的规模日益扩大,存储的数据量急剧增加。因而,迫切需要有新的、更为有效的技术和工具对各种数据信息资源进行开采以发挥其应用潜能。知识发现和数据挖掘技术正是在这样的应用需求背景下产生并随着决策系统的推动而发展的。本文从系统工程进行决策分析的角度出发,借助数据挖掘技术中粗糙集的基本理论,在智能决策框架的指导下,研究了基于数据挖掘的智能决策理论及方法。主要理论包括:①如何利用粗糙集对典型的决策系统即相容性决策系统和不相容性决策系统运用不同的数据挖掘方法进行有效的数据约减和规则提取;②在增量动态的数据库环境下讨论了在典型决策系统中对原始数据和增量数据进行数据约减的方法;③分析了带有优先权属性的粗糙集数据挖掘方法;④以基本粗糙集为基础探讨了粗糙集扩展模型的数据分析方法;⑤研究了粗糙集数据预处理方法。主要研究工作及创新如下: 1.将决策系统分为相容性和不相容性决策系统,针对不同系统的特点提出不同的挖掘模型。 对相容性决策系统从两个角度作为启发式信息对条件属性进行数据约减。第一种方法利用了知识的不可分辨性,并以逻辑推演的方式对决策表进行数据浓缩;第二种方法利用了知识的粒度,并以概念的提升方式对决策表进行数据浓缩。在不相容决策系统中提出了两种改进算法即决策概念包含法和粗糙重复组法对不相容的决策系统挖掘出具有一定可信度的分类规则。 2.在增量式动态数据库中,提出了相容性和不相容性决策系统的数据挖掘模型。 在相容性决策系统中,利用决策矩阵提出改进的处理多元决策属性值的数据挖掘模型,可方便地对增量的数据进行直接处理就可得到基于全局数据集合的分类规则,并对可能性规则的可信度进行了初步探讨;在不相容性决策系统中,利用GDT表与RS概念的结合,提出利用三个参数即归纳强度、噪声、隶属度判别指标确定分类规则的强度,通过属性的概念归纳,在一定的概率条件下产生分类规则,并能有效地处理增量式的数据。 3.针对条件属性的等价关系和优先二元关系特性,提出了改进的带有优先权属性的粗糙集数据挖掘模型。 论文在粗糙集拓广理论的基础上,利用属性的有序特性即优先二元关系,提出有序属性的数据挖掘改进算法,使基本粗糙集和带有准则的粗糙集在挖掘分类精度上达到统一,且挖掘出的规则简练、更具合理性和综合性。 4.建立了粗糙集与概率统计和模糊理论的拓展模型。 利用数据的统计特征,将概率测度与分类规则结合起来,提出了相应的知识西北工业大学博士学位论文约减算法;利用模糊属性集合的特点,把粗糙集合与模糊集合有机结合起来,将粗糙集中分辨矩阵的思想引入到具有隶属度属性的隐式决策系统中进行数据约减。 5.利用数据的分布特征,提出了一种改进的领域独立的数据预处理模型。 该模型利用xZ统计值测度进行属性离散化,并提出了对条件属性值的分段间隔首先进行初始化分段算法,使其之后的归并工作大大减少,并以不一致性水平阂值作为停机条件,提高了离散化速度。 6.将本文理论部分提出的数据挖掘核心模型应用到电信CRM的客户挖掘中。 将本文提出的数据挖掘核心模型应用于电信CRM的客户挖掘中,主要对电信CRM中的客户行为进行了分组,提出了大客户识别和划分的依据,初步验证了论文相关方法的正确性和有效性。