面向K近邻分类的实例选择方法研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:hong_77521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近邻分类是机器学习的重要研究内容之一。其中K近邻分类算法是一种非常典型的非参数懒惰学习方法,因其简单有效等特性被广泛应用于各个领域。但是它存在的弊端也逐步显现,其中包括数据集里面存在大量的冗余和噪声数据会严重影响分类精度;在面对实例数量较多的数据集或者数据集维度较高的时候,其计算消耗巨大。这就需要通过数据预处理来改善数据样本的整体质量,其中数据缩减是数据预处理的有效手段之一。实例选择作为常用的数据缩减方法,它可以有效的缓解以上的弊端。现有的面向K近邻分类的实例选择算法取得了很多成果,但是还存在误删数据集中非冗余和非噪声样本,以及面对大规模数据集的时候算法效率低下等不足。本文针对以上面向K近邻分类算法存在的不足,为了能够提高K近邻分类器的分类效率,通过对众多实例选择算法的研究和分析并结合进化计算,设计了相应的两种智能优化算法。主要研究工作如下:1.将实例选择中涉及到的一些相关定义和问题进行了归纳总结。然后给出了实例选择算法的不同分类方式,阐述了实例选择问题和近邻分类的关系并且对传统的面向近邻分类的实例选择算法进行简单的介绍。随后从进化算法的角度来介绍其解决实例选择问题的过程并且详细介绍了相应的进化实例算法模型,最后对进化实例选择算法的其它相关技术进行简单的阐述。2.针对面向K近邻分类的实例选择过程中存在冗余和噪声数据影响分类性能的问题,本文提出了一种面向K近邻分类的合作协同进化实例选择算法(NNC-CoCo)。算法中进化实例选择过程中采用多点交叉策略来进一步提高实例选择的准确性,同时对实例加权和特征加权使用快速突变策略,并且与实例选择进行合作协同来去除噪声和冗余实例,从而选择出最佳的训练子集,最终使K近邻分类器的性能得到了提升。实验结果表明,此方法相比较当前的一些进化实例选择算法在分类准确率和效率上均具有优势。3.针对进化实例选择算法在实例数量较多的数据集中所需时间呈指数增长并且存在算法效率低下的问题,本文提出了一种面向K近邻分类的分层进化实例选择算法(EIS)。首先采用分层随机抽样的思想划分数据集,其次让两个独立种群相互协同进化,然后在标准遗传算法上采用基于局部搜索变异的策略和基于精英个体替换策略,选择出合适的训练子集进行正确的分类。该方法于当前的一些经典实例选择算法在部分实例数量较多的数据集中分类效率和存储率上均具有优势。
其他文献
切换系统是由若干个子系统和一套切换规律所组成的,日常的生活及工业领域中,许多复杂的系统都可以建模为非线性切换系统来研究,如网络控制系统、电力系统、飞行器控制系统、
四元数神经网络作为复值神经网络或实值神经网络的推广,对于处理高维数据,如彩色图像、人体图像和4-D信号等问题,四元数神经网络有其独特的优势。因此本文致力于四元数神经网
舰船声隐身是海洋军事领域最为关注的问题,降低舰船辐射噪声是当前声隐身中最主要的研究课题。辐射噪声主要为低频线谱,传统的被动噪声控制针对低频噪声无法达到良好的控制效
橡胶混凝土具有轻质阻尼比高以及耐久性能、减震性能、抗裂性能较优等特点,但是在混凝土中加入橡胶集料会使得混凝土的力学性能降低。试验发现橡胶集料表面进行复合处理,改变
现实生活中很多系统都可以看作是多智能体系统(Multi-Agent System,MAS),这些系统由一些能够感知环境,并且能够根据感知的信息对环境执行相应反应的个体组成,在人工智能和计
博弈作为一种生活中常见的一类问题越来越引起重视,不少研究者尝试研究各种复杂背景下的机器博弈问题,特别是非完备信息博弈。早期的研究者通常需要手动获取并处理大量的数据
随着互联网技术迅猛发展,网络信息量呈几何式增长,为人们的日常生活带来了巨大的便利,但是同时这也给人们带来了信息过载的问题。在这种情况下,推荐系统应运而生,个性化推荐
近年来,随着技术的日趋成熟和人类对环境污染问题的愈加重视,风力发电在发电总装机容量中占得比重越来越大。由于工作环境恶劣且风速及方向随时都在变化,导致风力发电机组长
近年来,钢筋锈蚀所引发的混凝土耐久性能退化的问题越发突出,也受到各国学术机构、学者以及技术人员的重视,并进行了大量的钢筋锈蚀方向研究论文。研究钢筋混凝土耐久性退化,
混凝土结构是世界范围内广泛应用的一种建筑材料,在正常合理的使用条件下,钢筋与混凝土之间良好的粘结性能够使构件的性能得到充分发挥。但是,混凝土的碳化、氯离子腐蚀等多