论文部分内容阅读
代价敏感学习是数据挖掘的研究热点,预算约束满足问题是人工智能和机器学习领域著名的问题之一。最近几年,研究最小测试代价下的属性选择问题一直是代价敏感学习中的重点。但在实际应用中,由于任何一样资源都是有限的,所以解决任何一个实际问题,都是在一定的预算约束下完成的。因此研究预算约束下的代价敏感属性选择问题在众多的应用领域有着重要的意义和广泛的应用。另外,当前代价敏感算法普遍采用静态的静态误分类代价,仅能满足实验和前瞻性的需要,不能适应同一类分布样本数量变化的数据集的分类模型的学习。针对静态误分类代价的不足,如何设计动态的误分类代价机制正受到越来越多学者的青睐。本文针对最小测试代价下的属性选择问题,预算约束下的属性选择问题和动态误分类代价下的属性选择问题进行了研究,主要取得了如下创新成果。首先,研究了最小代价下的代价敏感属性选择问题。这个最小代价只单纯考虑了测试代价这一种代价类型。本文提出了一个对数加权算法来求解最小测试代价下的代价敏感属性选择问题。实验结果表明,在大多数情况下,新算法的效果优于已有的算法。其次,研究了预算约束下的代价敏感属性选择问题。预算约束是指所能花费的最大测试代价大于最小测试代价但不大于总测试代价。这意味着,在预算约束的条件下,只能求解能够最大程度保留系统信息的属性子集。本文在预算约束的条件下,设计了一个模拟退火算法来求解代价敏感属性选择问题。实验结果表明,我们设计的算法能够在效果和效率方面获得良好的实验结果,实验结果优于已有的启发式算法和遗传算法。最后,研究了动态误分类代价机制下的代价敏感属性选择问题,并设计了四个最优误分类代价函数,四个函数可以根据少数类与多数类以及与测试代价之间的关系,形成客观的具有代表性的误分类代价空间,并对不同数据子集可以灵活地选择更合适的误分类代价,这样能更好的逼近数据集真实的误分类代价。