论文部分内容阅读
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘获得的规则包括描述型规则和预测型规则,特征化规则是一种典型的描述性规则,数据概化是描述型规则挖掘方法的一种主要手段,而面向属性的归纳方法则是实现数据概化及生成特征化规则的一种重要方法。
概念层次使给定的数据离散化,收集并用较高层次的概念来替换较低层次的概念,使数据进行归纳;通过概化使数据更有意义、更容易解释。对于同一个属性可以定义多个概念层次,以适应不同的用户需求;定量特征规则通过将定量信息与规则相结合,定量地反映概念的主要特征和次要特征,面向属性的归纳算法是在数据库中挖掘定量特征规则的一个重要手段。
本文对传统的基于概念的面向属性归纳的方法(AOI)进行了深入研究,分析了概念层次的定义、表示方法及特征规则评价方法等问题,发现它们存在以下不足:(1)不能处理不平衡的概念层次;(2)没有考虑实际数据分布对最后的泛化规则的影响;(3)直接采用传统AOI方法往往会使同一个概念有不同的特征描述,这种现象必然降低规则对决策的参考价值。
针对以上不足,在传统AOI的基础上设计出一种增强的面向属性的归纳算法Expanded-Attribute-Oriented Induction,简称:E-AOI,它不仅可以处理不平衡的概念层次,而且得到的泛化规则可以反映实际的数据分布。算法中提出了测量定量特征规则有效性计算指标-方差分析(analysis of variance),使特征规则在有效性上达到最优,同时削除同一概念有不同的特征描述的现象。
设计了E-AOI数据概化和特征化规则挖掘的实现策略和算法,给出了数据概化和特征化规则挖掘的结构框架。以美国人口调查局成人数据库,归纳年收入超过20万的人群特征为例,应用E-AOI方法实现了数据概化,获得特征化规则,实验证明E-AOI方法是可行有效的。