一种基于近邻区的支持向量机样本约减算法

来源 :数字化用户 | 被引量 : 0次 | 上传用户:jkhy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】支持向量机 (Support Vector Machine,SVM)以实现结构风险最小化为原则,成功避免了传统机器学习基于无穷样本数量的假设,以及推广能力差、“过学习”、局部最优值、“维数灾难”等问题。对分类起作用的支持向量只存在于样本分界处,其他对分类不起作用的样本会增加构造支持向量的时间,导致分类速度较慢。本文提出了一种基于近邻区的样本约减算法,将异类样本中离得最近(特征空间中离得近意为相似性高)的聚类区域内的样本集合作为SVM新的训练样本集合,从而有效减少训练样本数量和构造支持向量的时间,在保证分类准确度的前提下提高分类速率。
  【关键词】SVM,分类,样本约减,近邻区
  一、引言
  SVM是在小样本情况下发展起来的统计机器学习理论,基于结构风险最小化原则[1],可以解决分类、回归等问题。结构风险最小化就是指在保证分类精度的同时,降低学习机器的VC维,使学习机器在整个样本集上期望风险得到控制。
  SVM最初以成功解决二分类问题著称,其分类准确性高、受“噪音”样本干扰小、稳定性好,通过在样本之间寻找一个最优分类面分隔异类样本。寻找最优分类面的问题最终转换成凸二次优化问题的求解过程,样本数量及样本的维数都将直接影响分类性能。因此,在数据分类中减少样本数量不仅可以减少SVM分类时间,而且可以实现结构风险最小化。
  二、SVM[2]
  三、SVM样本约减算法研究现状
  为了提高分类性能,有效优化SVM的样本训练效率,目前已经提出了一些方法。文献[3]提出采用聚类方法寻找代表 k 个簇的聚类中心作为约简集,该方法只能表现为超球面的形状,以单一的点代替整个不规则的聚类簇很不合适。
  也有的方法将主动学习策略用于 SVM 的样本选择[4],以及在特征空间中将样本做分离,将高维二次凸优化问题分化成多个低维凸优化问题的组合[5]。
  张金泽[6]等人提出模糊超球支持向量机,将样本空间划分成有限个超球子空间,超球球心作为新的训练集。
  文献[7]提出的算法通过计算样本与类中心点的夹角进行样本约减,该方法有一定错选或多选,达不到最佳效果。
  四、基于近邻区的SVM样本约减算法
  对SVM分类起作用的只有位于样本集合交界处支持向量,而其它非支持向量对分类没有任何贡献。本文提出的基于“近邻区”的SVM样本约减算法将两类样本中离得最近(特征空间中离得近意为相似性高)聚类区域内的样本作为SVM新的训练样本集合,从而减少构造支持向量的时间,提高分类速率。
  (一)相关定义
  (二)基于近邻区的样本约减算法过程
  在样本的特征空间中,每一个聚类都占据一定的区域,聚类区域内的样本可以用该聚类的聚类中心近似代表。本文基于近邻区的样本约减算法具体过程描述如下:
  注意,采用样本约减算法后的样本数量与异类子近邻区中的值选取有关,值越大,约减算法处理后的样本所包含的支持向量可能更多、更全面,但样本训练时间随之增加。因此,在实际应用中应当从SVM训练样本时间、分类准确性等多方面进行考虑与权衡。
  本文提出的基于“近邻区”的SVM样本约减算法将那些分布于样本分界处附近、处于自身所在类别边界处的带状区域内的样本作为新的样本集合,从而保证约减后得到的样本集合与支持向量出现的位置相同,大大降低了计算量,减少了构造支持向量的时间。因此,本文提出的样本约减算法在保证分类准确度的同时有效减少了分类时间。
  参考文献:
  [1]Hou Jinbiao.Design and implementation of a system of video image capture of camera based on JMF[C]. MultiMedia and Information Technology,International Conference,2008:201-204.
  [2]G. Song, J. Guo, Y. Nie. An Intrusion Detection Method Based on Multiple Kernel Support Vector Machine [C]. International Conference on Network Computing and Information Security. 2011, 119–123.
  [3]李晓黎, 刘继敏, 史忠植,基于支持向量机与无监督聚类相结合的中文网页分类器,
  计算机学报,2001,24(1): 62~68.
  [4]Schohn G,Cohn D.Less is more:Active learning with support vector machines[C]. Proceedings of the 17th International Conference on Machine Learning. IEEE Press,2000:839-846.
  [5]王勇. 基于特征空间中样本选取与分离的 SVM 简化方法 [J].长春工业大学学报(自然科学版), 2008, 29(5):486-491.
  [6]张金泽,单甘霖,模糊支持向量机,军械工程学院学报,2005,17(3):65~67.
  [7]罗瑜,易文德.大规模数据集下支持向量机训练样本的缩减策略[J].计算机科学, 2007, 34(10):211-213.
其他文献
【摘 要】随着计算机技术的快速发展,编程的复杂度越来越小,计算机仿真已然成为现代电子系统和通信系统领域研究的重要方法。本文运用科学计算软件MATLAB的SIMULINK组件对通信系统中QPSK信号的调制解调过程进行建模,通过分析仿真波形可知,仿真波形达到设计要求。  【关键词】Simulink QPSK 调制 解调  1、MATLAB与Simulink简介  随着电子技术的发展,计算机仿真越来越多
期刊
【摘 要】随着校园游戏开发技术的不断的发展和成熟,大学生对校园文化的认识不只是体现在学院的历史和文化的氛围,也体现在学校多元化的创新项目的发展,让学生在这么多项目的开展中能学到更多方面的技术知识。拥有属于自己校园的游戏已经刻不容缓,本项目以长江大学工程技术学院为背景,希望通过一个新的角度,让同学们对我们的学校有一个新的认识新的认可。  【关键词】校园游戏、长江大学工程技术学院、校园文化、创新项目 
期刊
【摘 要】近些年来,随着时代经济的飞速发展以及现代化技术的日新月异,同时现代化城市进程不断加快,对于如何做好现代化城市管理始终是我国研究的热点之一。城市管理部门作为一种特殊的职能部门,基于数字化城市管理系统的应用更是涵盖了城市综合性的管理,打破传统的城市管理模式,借助于现代化信息基似乎以及先进的管理理念保证数字化城市管理系统应用过程中有着正常性的运行。本文主要针对当前数字化城市管理系统应用中存在的
期刊
【摘 要】本文探讨了基于集中抄表系统技术的电力营销信息化研究,分别从集中抄表系统的定义、电力营销信息化的功能、集中抄表系统在电力营销管理中的功能等方面进行了阐述,集中抄表系统技术很大地推动了电力营销的信息化程度。  【关键词】集中抄表系统 ;电力营销 ;信息化  1集中抄表系统  集中抄表系统通过传输媒体,比如无线设备、有线设备等,同时进行多个电能表的抄表工作。该系统依靠供电单位的主站运行,当主站
期刊
【摘 要】随着科技不断的发展,自控领域技术不断的革新。通用测试系统已经成为了广大科研结构和高校的研究热点,尤其是测试软件的通用性成为了焦点。本文对通用ATS(Automatic Test System)软件平台进行研究与设计,探讨了通用型ATS软件平台的建设方法,给出了主要功能模块的设计方案。本文设计的通用型ATS软件平台具有很广泛的适用范围以及可移植性,能够有效地帮助测试人员提高维修以及测试工作
期刊
【摘 要】随着我国信息化技术的发展和计算机应用的普及,计算机的作用越来越明显。而在实际工作中发现,很多大学生的计算机应用水平不高,有的学生毕业甚至连常用的办公软件都不能熟练使用,这与企业对员工的要求相差较大。作为高校应明确计算机课程教学目标,改进课程教学方法,加强学生实践能力锻炼,努力培养适应社会需求的应用型大学生。  【关键词】高校;计算机;课程教学;问题;对策  一、大学生计算机专业技能掌握的
期刊
【摘 要】在过去电路实验教学中,实验时间有限,实验内容陈旧,实验效果不理想。本文提出新的电路实验教学模式——创新型实验教学,使学生实验时间、实验内容都可以自主。  【关键词】能力培养 创新型 实验模式  21世纪知识创新已经成为决定国家经济和社会发展的重要因素。在知识经济时代对高素质创新人才的需求不断扩大的新形势下,培养大批具有创新精神的人才是社会发展对高等教育的迫切要求。电路实验教学是高等学校电
期刊
【摘 要】随着信息的迅猛发展,针对检索系统的改进已逐渐成为研究的热点。通过对检索结果的进一步处理已成为研究的热点领域。采取聚类算法的研究是一种有效的改进策略,通过对检索结果进行聚类,将检索结果进行分类,这方便用户快速找到自己所需信息。本文是将传统的聚类算法运用到信息检索系统中,对检索得到的结果进行聚类,达到对结果分类区分。  【关键词】信息检索;藏文;聚类  一、引言  随着IT技术的发展,我们处
期刊
【摘 要】机械工程是综合运用力学、热学、物质与能量守恒等科学原理知识具体的作用到汽车、飞机等交通运输工具,道路桥梁、土木工程等工程建筑,工业仪器、机械设备等器械等多个方面的学科,在具体的机械工程中实现信息化的管理能够进一步强化对工程整体运作的管理。本文对机械工程信息管理系统进行了详细的探讨,以期与同行进行深入的交流与学习。  【关键词】机械工程;信息管理  前言:  机械工程实现信息化管理可以极大
期刊
【摘 要】C语言程序设计课程作为一门基础课程,是绝大部分高校理工科专业的一门计算机基础必修课程。而目前这一课程在实验教学过程中仍存在问题,基于此现状,作者介绍计算思维的含义,分析C语言程序设计课程现状,并就如何进行C语言程序设计课程教学改革,进而有效提升课堂教学效率等问题展开讨论分析。  【关键词】计算思维 C语言程序设计 教学改革  引言  C语言一直在等级考试和实际应用中占有不可或缺的地位,逐
期刊