论文部分内容阅读
随着计算机在数据采集和数据存储方面的技术迅猛发展,机器学习应用经常碰到越来越大的数据集。大部分机器学习算法的时间、空间复杂度也随着数据集的规模变得越来越高。如何避免过度的空间、时间消耗,甚至通过移除噪声数据提高数据集的泛化能力,给数据集精简的研究带来了重大挑战。论文在前人数据集精简算法相关研究的基础上,对精简算法设计的关联问题、算法分类比较等方面进行了深入研究,完成了如下的一系列工作:1.详尽地介绍了数据集精简算法设计过程中需要解决的问题和面临的选择,对实例的表现形式、精简搜索方向、相似度度量函数、投票机制、性能评价指标以及KD-Tree技术和威尔科克森检验等问题、技术进行了论述,为后续精简算法设计、讨论,提供一个比较系统的理论框架。2.主要结合了精简算法设计的原型选择和原型生成两种基本思想的不同分类,比较、分析大部分的经典精简算法并阐述各自优缺点。3.提出了一种基于相对位置视点的数据集精简算法(RePo)。从相对位置的视点入手,分析了数据点在局部区域的重要性,并由此给出了关于判断数据点是否“可替代”的理论定义。通过保留重要的边界节点、删除噪音节点以及精简内部节点,RePo算法融合原型选择和原型生成两种精简思想,最后引入噪音过滤器更加谨慎地删除噪声与部分边界节点,从而平滑化、清晰化类边界。4.在16组UCI数据集上将新提出的RePo算法与其它17种不同设计思路、不同策略的精简算法进行对比实验。论文对实验中得到的指标结果进行了分析、比较,并对算法间的差异做了威尔科克森符号秩假设检验(置信水平为0.1),实验表明:RePo算法对数据集压缩幅度较大,结合考虑压缩幅度和泛化精度的综合性能方面,其整体性能与SSMA和RMHC算法接近,但RePo算法平均泛化精度比前两种算法高出9.5%和1.3%。综上,RePo算法通过采用原型概念和剪辑式、压缩式的混合处理方式,从而结合了原型生成和原型选择的基本思想,保留重要边界点,剔除噪声数据,同时通过生成重要的数据点压缩大量内部节点。在论文实验中RePo算法保证了泛化分类水平的前提下,可对原数据集T进行比其他大部分算法更大幅度的精简。与此同时,在终止条件设计和冗余检测定义方面,RePo算法还存在改进的空间。