论文部分内容阅读
随着计算机技术的广泛应用,人类社会产生数据的速度急剧增加,大量有用信息被隐藏在海量数据中。数据挖掘则是人们提取这些信息,进而获得知识的重要技术。从大量的现实数据中挖掘隐藏在其中有用信息的过程即为数据挖掘。事实上,它们已经被成功应用到科学研究、工程、银行和医疗等各个行业,并且正在发挥着越来越重要的作用。粗糙集理论(Rough set theory)作为一种处理不确定信息的新型数学工具由Pawlak于1982年提出。粗糙集理论吸引了世界范围内许多研究者和实践者的关注。近年来,粗糙集理论及实际应用都取得了长足的发展。粗糙集理论已被成功地应用于很多领域,尤其是在机器学习和数据挖掘。目前经典粗糙集已成功处理符号型的数据,邻域粗糙集成功处理数值型的数据。同时还产生了覆盖粗糙集、决策粗糙集等诸多理论分支并成为粒计算三大理论之一。代价敏感学习是数据挖掘中十大具有挑战性问题之一。代价是在数据获取或数据处理的过程中产生的,是数据不可分割的一部分。测试代价是在进行测试时获得每条测试的属性值所付出的价值。误分类代价即为把属于一类的记录划分为另一类时需要支付的代价。代价敏感学习通过权衡测试代价和误分类代价,使得所采取的行为的代价最小或产生最优决策行为。在数据挖掘和机器学习领域,代价敏感学习既是热点问题,也是难点问题。在现实应用中,所需处理的数据多为混合了符号型数据和数值型数据的混合型数据。已有的方法在处理混合型数据的代价敏感属性选择问题时,常将不同类型的数据处理成一种类型的数据。例如,将混合型数据中的符号型数据归一化为数值型数据或将数值型的数据离散化成符号型数据。但是,这样处理混合型数据会造成数据本身信息丢失,导致属性选择的测试代价和误分类代价增加。因此,研究混合型数据的代价敏感学习无论就知识发现的理论研究,还是许多领域的应用需求都具有重要的价值。本文主要研究数据值域为混合型数据的代价敏感学习。本文的研究内容主要分为两部分:第一部分详细研究了混合型数据的测试代价敏感属性约简问题。一方面,我们提出一个改进的人工蜂群算法来解决符号型数据上的测试代价敏感属性约简问题。实验结果表明,我们所改进的算法的实验结果在很大程度上比已有的算法优越。另一方面,我们提出自适应邻域和基于自适应邻域的算法解决混合型数据上的测试代价敏感属性约简问题。实验结果表明,我们所改进的算法的实验结果在很大程度上比已有的算法优越。第二部分主要研究了混合型数据的代价敏感属性选择问题。代价敏感属性选择问题是考虑测试代价和误分类代价属性选择问题。基于自适应邻域模型,我们提出基于自适应代价属性选择算法解决混合型数据集的代价敏感属性选择问题。实验结果表明,我们所改进的算法的实验结果在很大程度上比已有的算法优越。