论文部分内容阅读
大数据时代的到来,使得海量数据的存储代价、基于实例的机器学习算法的性能和效率均面临极大挑战。通过从原始训练集中选取对数据分析有显著贡献的实例,即实例选择是解决上述问题的可行途径之一。然而,目前已有实例选择方法计算代价较高,且难以均衡筛选子集性能与约简率之间的关系。为此,本文提出基于边界特征和代理模型的实例选择方法,以尽可能保持选择样本的性能及减小计算代价,主要研究内容如下:(1)基于可移除性和边界特征的动态重要数据查找实例选择:边界实例对保持样本分布特性及学习器至关重要,同时,考虑计算复杂度,提出一种基于可移除性和边界特征的动态重要数据查找的实例选择策略。首先,随机初始化实例的重要性权重,选择权重小的样本作为待删除实例;给出基于K-means聚类的实例选择可移除性定义;然后,计算删除实例与原始聚类中心的距离,衡量实例的边界特征,进而给出基于实例可移除性和边界特征的重要性权重更新策略;动态调整删减比例,给出基于重要性权重和删减比例的样本选择机制。所提算法在20个UCI典型数据集上的应用,验证了其保持样本学习性能的有效性。(2)基于代理模型预测数据重要性的实例选择:针对研究内容(1)实例选择因迭代次数多而导致算法耗时的问题,提出基于代理模型预测数据重要性的实例选择方法。首先,利用裁剪最近邻算法去除数据集类边缘的噪声实例;然后,根据研究内容(1)中数据重要性的标记策略,计算待删减样本的统计特性以及删减样本后聚类中心到初始类中心的距离,构建高斯过程预测模型,预测实例选择精确性(类中心距离);给出融合降噪和代理模型的实例选择策略。将所提算法应用于内容(1)的典型数据集,实验结果表明,所提算法在对实例选择的精度预测方面具有较好的预测性能,且在相同约简率的条件下,大大降低了实例选择过程的计算成本。本文提出的基于可移除性和边界特征的重要性动态更新实例选择策略,利用聚类迭代过程可在一定程度上选择出类边界实例,进而根据实例的可移除性及边界特征更新数据重要性权重,逐步删除权重较小的实例,达到降低数据集规模并提高基于实例选择的机器学习算法性能的目的;基于代理模型预测数据重要性的实例选择算法,在裁剪最近邻降噪的基础上,利用高斯过程预测实例选择的精确性对内容(1)实例选择方法进一步改进,从而在保证筛选子集分析性能的条件下大大降低了算法的时间复杂度。